Onderzoeker Thiébauld Weksteen heeft een methode gevonden om robots.txt-bestanden op het web te indexeren en af te zoeken op steekwoorden. Daarbij gaat hij ervan uit dat webeigenaren die Google via robots.txt vertellen welke directories en bestanden niet mogen worden geïndexeerd, daarin mogelijk interessante informatie opnemen die van nut kan zijn voor kwaadwillenden.

Robots.txt wordt als aanwijzing gebruikt door webeigenaren om de zoekbots van Google te vertellen welke directories en/of bestanden niet mogen worden geïndexeerd. Sommige zaken wil je namelijk liever niet zien opgenomen in de zoekmachine van Google, maar zijn wel belangrijk genoeg om ergens op je website te hebben. Maar, zo zegt Weksteen, het laat vaak ook 'verboden' routes binnen je website zien, en de technologie die op de servers wordt gebruikt.

Duizenden afgeschermde bestanden gevonden

Weksteen heeft met zijn eigen crawler bijna 60.000 sites geïndexeerd, waarbij iets meer dan 35.000 een robots.txt bevatten. Het leverde onder meer 10.000 documenten op die in de robot.txt van de Israëlische ambassade stonden en een aantal bestanden die geblokkeerd waren door het Amerikaanse ministerie van Binnenlandse Zaken.

De code van Weksteens scraper werd volgens The Register na de publicatie ervan ook gebruikt door Redditers, En dat leverde in een robots.txt onder meer de naam en foto op van een studente die blijkbaar werd gestalked en beschermd tegen het indexeren door Google.