De wereldwijde storing van begin deze maand heeft clouddiensten als Office365, Hotmail en SkyDrive onbereikbaar gemaakt. In totaal heeft dit ruim drie uur geduurd. “Er is geen data van klanten verloren of beschadigd geraakt gedurende deze storing", blogt Arthur de Haan van Microsoft in zijn 'post-mortem rapport'.

Een enkel bestand

De vice-president van de Windows Live-diensten geeft uitleg over de oorzaak en stelt dat er inmiddels maatregelen zijn genomen om herhaling te voorkomen. Uit het eigen onderzoek van Microsoft blijkt dat de hele storing is terug te voeren op een enkel bestand. Dat is een intern gebruikt configuratiebestand voor internetadresboek DNS (domain name system).

Het netwerkverkeer naar Microsofts cloud-servers is foutgelopen doordat dat ene bestand gecorrumpeerd is geraakt. Dat “was het gevolg van twee zeldzame omstandigheden die tegelijk optraden. De eerste is gerelateerd aan de reactie van load-balancing apparaten in de DNS-dienst op misvormde input." Die verdelers voor het netwerkverkeer struikelden over een verkeerd opgestelde regel in het configuratiebestand.

Fout snel synchroniseren

“De tweede omstandigheid was gerelateerd aan de manier waarop de configuratie wordt gesynchroniseerd over de DNS-dienst om ervoor te zorgen dat alle client-verzoeken dezelfde response opleveren ongeacht de locatie van de client-connectie." Oftewel: het gecorrumpeerde configuratiebestand is snel en efficiënt gerepliceerd in de hele cloudomgeving van Microsoft. Beide omstandigheden zijn teruggeleid naar de firmware in de netwerkapparatuur die Microsoft gebruikt voor zijn interne DNS-dienst.

De voor de hand liggende oplossing is een systeem dat controleert of configuratie-instellingen wel in orde zijn. Zo'n controle kan zelf echter ook voor problemen zorgen, wat Facebook een jaar geleden heeft ondervonden. 's Werelds grootste sociale netwerk is toen uren onbereikbaar geweest. Het eigen geautomatiseerde systeem voor het verifiëren van configuratiewaardes heeft toen veel meer schade veroorzaakt dan het oploste.

'Misleidende reclame'

In de Verenigde Staten is er nu een formele klacht ingediend tegen Microsoft, vanwege misleidende reclame. De softwarereus prijst zijn clouddiensten namelijk aan met een uptime van 99,9 procent. Dat geclaimde percentage beschikbaarheid zou dit jaar tot op heden niet zijn gehaald, waardoor klanten recht hebben op schadevergoeding. De Advertising Standards Agency onderzoekt deze klacht nu, meldt de Britse ict-nieuwssite The Register.