Sophos heeft de analyse rond over de detectie van het eigen securitypakket als zijnde malware. De autopsie van het eigen, falende handelen brengt de feiten aan het licht. De securityleverancier bracht op 19 september een update uit voor zijn beveiligingssoftware. Die update was voor de detectieregels waarmee de beschermende programmatuur malafide software kan herkennen om die vervolgens te blokkeren, isoleren en eventueel geheel te verwijderen.

Vals alarm, met flinke gevolgen

De gedistribueerde en automatisch geïnstalleerde update zorgde echter voor zogeheten false positives. Dit zijn onterechte meldingen van malware, waarbij een legitiem programma - of een deel daarvan - wordt aangezien voor kwaadaardige code. Nu komen dergelijke valse alarmmeldingen wel vaker voor, soms met grote gevolgen. Bijvoorbeeld wanneer componenten van Windows zelf worden aangezien voor malware en dus worden geïsoleerd.

De fout van Sophos heeft niet computers zelf onklaar gemaakt, maar gebruikers en beheerders toch in een lastig parket verwikkeld. De 'positives' die door de detectie-update waren geduwd, ze betroffen namelijk ook de Sophos-software zelf. Dit saboteerde die securitysoftware doordat die niet langer kon worden geüpdatet. Een volgende, corrigerende update kwam dus niet binnen om de fout te herstellen.

Twee categorieën slachtoffers

De gevolgen voor gebruikers van Sophos waren flink. De leverancier schrijft in zijn post mortem dat er grofweg twee categorieën klanten zijn te onderscheiden in deze affaire. De eerste categorie ondervond het minste last. Dit zijn gebruikers die de zogeheten endpoint-beschermingsproducten van de leverancier gebruiken én daarbij de standaardinstellingen ongemoeid hebben gelaten. Default staat de Sophos-software ingesteld om bij detectie van malware de toegang tot die bestanden te blokkeren.

Het herstellen van de security-software en eventueel getroffen applicaties van derden was volgens Sophos snel gebeurd. "De voornaamste impact voor deze klanten was het extra werk wat was vereist om de grote hoeveelheid false positive-alarmmeldingen te verwijderen uit event-logs, en het beanwoorden van de resulterende vragen van eindgebruikers over waarom er valse meldingen opdoken", vat de leverancier samen.

Alarm! Wat dus loos was, maar niet zonder gevolgen:

Nevenschade

Deze stelling gaat echter voorbij aan twee aanvullende gevolgen. Deze nevenschade (collateral damage) kan redelijk fors uitpakken. Enerzijds waren gebruikte applicaties tijdelijk geblokkeerd en dus onbruikbaar. Hoe kort dit ook duurde, dit heeft bedrijven werktijd en dus geld gekost. Anderzijds is er de mogelijkheid dat beheerders of gebruikers zelf actie hebben ondernomen op basis van de detectiemeldingen. Dus applicatie-installaties hebben teruggerold of systeemimages opnieuw geïnstalleerd voordat ze wisten dat het om loos alarm ging. Ook dit kost tijd en dus geld.

Naast deze ene categorie klanten staat de groep die meer schade en opruimwerk heeft geleden door Sophos' fout. Lees verder op pagina 2.

De tweede categorie klanten die Sophos onderscheidt, heeft volgens de leverancier meer schade geleden. "In andere klantenomgevingen hebben de valse alarmmeldingen herstelwerk vereist op elk endpoint om de Sophos-software en sommige applicatiecomponenten van derden te herstellen." Dit komt neer op de beheernachtmerrie van langs elke pc moeten gaan om daar handmatig werkzaamheden uit te voeren.

Handwerk voor elke pc

Dergelijk non-remote beheerwerk kost niet alleen dure ict-uren. Het legt ook het normale werk voor beheerders én eindgebruikers lam totdat de rondgang langs alle computers is gedaan. "Voor veel klanten en partners resulteerde dit in significante extra werkbelasting om het probleem op te lossen", erkent Sophos dat in zijn analyse spijt betuigt over de fout.

Onder de software en systemen van andere fabrikanten die is geraakt door de detectieblunder bevinden zich client- en serversoftware. Sophos zelf noemt webbrowser Google Chrome, PDF-productiepakket Adobe Acrobat en softwareplatform Java. De twee laatstgenoemde stuks software kunnen bij bedrijven dienst doen voor respectievelijk cruciale workflow en uiteenlopende serverapplicaties.

Cloud beschermt, na verloop van tijd

Er was nog wel een verzachtende omstandigheid voor de impact van de Sophos-fout: Live Protection. Die functie van de securitysoftware staat standaard aan (klantcategorie één) en koppelt het lokaal draaiende pakket aan Sophos' database met de nieuwste bedreigingen.

Deze extra controle van een gedetecteerde dreiging kan false positives ongedaan maken. Dat gebeurt echter niet per direct. De onterechte meldingen moeten na verloop van tijd vanzelf verdwijnen als de Live Protection-cloud de gevonden bestanden als 'schoon' bestempelt, meldt Sophos in een blogpost.

Klanten die Live Protection zelf hadden uitgeschakeld, moesten dat weer activeren om van de fout te herstellen. Daarmee was de oplossing niet gelijk rond: "In sommige gevallen was het ook nodig voor beheerders om elk getroffen endpoint te bezoeken", geeft Sophos aan.

Quarantaine verergert

Bovendien was er ook nog een verergerende omstandigheid: het ingeschakeld hebben van de Move- of Delete-acties in de opruimingsregels voor endpoints. Die opties staan default niet aan. Bij gebruikers waar dat wel het geval was, zijn de onterecht als malware gedetecteerde bestanden in quarantaine geplaatst of zelfs direct gewist. Daardoor is de Sophos-software zelf onderuit gehaald, én ook applicaties van derden.

De securityleverancier voorziet klanten van tools om verplaatste of verwijderde bestanden weer te herstellen. Maar die hulpmiddelen voor de recovery vereisen nog altijd een 'computertournee' omdat de tools op elk getroffen endpoint-systeem moeten draaien. Sophos stelt in zijn rapport over de eigen fout dat dit een "onacceptabele tekortkoming is in de kwaliteits- en release-processen" van het bedrijf.

Fouten in elke fase van de controle

De rootoorzaak was namelijk een menselijke fout. Een analist van Sophos heeft de bewuste update voor de detectieregels verkeerd geprogrammeerd. Dat was slechts stap één in een keten van fouten. "Zodra de analist de fout had gemaakt, zou het toch nog geïdentificeerd of gevangen moeten zijn door ons twaalfstaps testprocedure", biecht het bedrijf op.

Er was in dit geval echter een combinatie van "een menselijke fout in de code-controle, een menselijke fout die zorgde voor incorrecte interpretatie van testresulaten, en een mismatch in de testomgevingen". De foute update is hierdoor langs de controles gekomen en tot release gekomen. Sophos belooft zijn procedures én automatische controlesystemen te verbeteren om te voorkomen dat dit ooit nog voorkomt.