Microsoft geeft in een nieuwe blogposting verdere details over het crashen van Windows Azure in grote delen van West-Europa, eind vorige week. Eerder al werd gemeld dat een eigen fout de oorzaak zou zijn. Die fout was toen te herleiden naar een configuratie van een netwerkapparaat dat gelimiteerd stond op het aangaan van externe verbindingen. Toen die limiet bereikt was, ging het apparaat plat, waarna een domino-effect andere apparaten in de cluster verstoorde.

Die limiet blijkt nu terecht op dat apparaat te hebben gestaan, maar had moeten worden opgerekt omdat Microsoft meer rekencapaciteit had toegevoegd, vanwege de toenemende vraag in West-Europa. Maar de nieuwe capaciteit werd niet gekoppeld aan genoeg netwerkapparaten om de verwachte toename van de externe verbindingen aan te kunnen.

Domino-effect

Doordat het aantal te maken verbindingen de limiet van de hardware overschreed, kreeg de managementsoftware een flinke toename van verkeer te verwerken door alle foutmeldingen. Die toename leidde weer tot nieuwe storingen in andere hardware in de cluster waardoor de CPU's in die hardware volliepen naar 100 procent.

Microsoft zegt de boel te hebben opgelost door het limiet op de verbindingen in de getroffen cluster te verhogen en dat vervolgens ook te doen in alle andere Windows Azure datacenters. Verder zijn er oplossingen gevonden voor de bugs die zich voordeden in de software op de netwerkapparatuur. Ook is het netwerkmonitoringsysteem verbeterd om verbindingsproblemen sneller te ontdekken en verbindingen te verdelen over meerdere apparaten voordat een van hen vastloopt, zegt Microsoft. Het bedrijf beschikt over datacenters in Ierland en Amsterdam, maar het is niet duidelijk welke nu is getroffen.