80legs is een nieuw bedrijf dat een grid van 50.000 servers inzet om miljoenen webpagina’s te doorzoeken en te analyseren binnen een paar minuten. Dat zegt tenminste Shion Daysarkar, CEO van 80legs. De dienst richt zich bijvoorbeeld op marktonderzoekers die willen weten hoe er gedacht wordt over een bepaald product of dienst, of op advocaten die zoeken naar overtredingen van het copyright.

Elke zoekactie kost 2 dollar per miljoen pagina’s, plus 3 cent per uur gebruikte CPU-tijd. Het doorzoeken van een miljoen pagina’s zou binnen 10 tot 20 minuten gedaan moeten zijn en in het uiterste geval kunnen binnen een dag 2 miljard pagina’s worden doorzocht, aldus de cijfers op de website. Hoe duur dat in de praktijk is, wordt niet helemaal duidelijk. Als met die 2 miljard pagina’s 50.000 servers met minstens 1 CPU gemoeid zijn, dan komt daar toch nog het lieve bedrag uit van 40.000 dollar. Zolang niet duidelijk is hoeveel CPU’s worden gebruikt is dat een reëel maximum en zulke bedragen moeten natuurlijk wel van tevoren worden begroot.

Het lukt 80legs zelfs om het hele web af te zoeken, aldus Daysarkar. Klanten moeten voor een klus een formulier invullen en kiezen voor een van de semantische analyse- of tekst extractie-applicaties die door 80legs worden geboden. Maar ze kunnen ook hun eigen app uploaden, die in een Java of .Net applicatie program interface of API moet hangen.

Het is de bedoeling dat anderen met meer ideeën komen over wat er met deze crawlkracht moet gebeuren. 80legs wil daarom nog API’s ter beschikking stellen voor Perl en Python, waardoor meer mensen voor deze dienst kunnen ontwikkelen.

Bron: Techworld