Het sneller indexeren betekent dat Google steeds meer realtime (of bijna realtime) resultaten toont. Zoekmachines tonen in de regel geen realtime weergave van het web, maar zoekresultaten op basis van een index die wordt verzameld door hun crawlers. "Het is als de index achterin een boek, waarmee je precies gewezen wordt op welke pagina de informatie staat die je nodig hebt", legt Google uit.

Omdat de oude manier van indexeren te langzaam gaat voor de behoefte van een moderne internetter besloot Google een nieuw indexeersysteem te bouwen. "Om de evolutie van het web bij te benen en aan te sluiten op de hogere verwachtingen van gebruikers hebben we Caffeine gebouwd", zegt Carrie Grimes, Software Engineer bij Google.

Continu indexeren

De oude index van de zoekreus bestond uit verschillende lagen. Die lagen werden allemaal binnen een bepaalde tijdsspanne ververst. De hoofdlaag werd bijvoorbeeld iedere paar weken ververst, maar niet voordat het hele web was geanalyseerd. Dit zorgde voor een flinke vertraging tussen het indexeren en het opnemen van veranderde pagina's in de zoekresultaten.

Met Caffeine wordt het web in kleine delen geanalyseerd, en worden veranderingen continu en wereldwijd direct doorgevoerd in de index. "Als we nieuwe pagina's of nieuwe informatie op bestaande pagina's vinden, worden die direct aan de index toegevoegd", legt Grimes uit. "Dat betekent dat je nieuwere informatie kunt vinden dan ooit tevoren, waarbij het niet uitmaakt waar en wanneer het werd gepubliceerd."

Schaalbaar

Caffeine verwerkt per seconde honderdduizenden pagina's tegelijkertijd. Volgens Grimes staat dat gelijk aan een stapel van 4,8 kilometer papier per seconde. Eén database van Caffeine bevat 100 miljoen gigabyte aan data.

Naast het snellere indexeren heeft Google's nieuwe systeem nog een voordeel: het heeft volgens de maker een veel grotere schaalbaarheid. Caffeine zou de continue groei van het web dus goed bij kunnen houden.