Google heeft onlangs haar algoritmes zo afgesteld dat recent gepubliceerde webpagina's kunstmatig hoog op de resultatenlijst belanden, zo bericht het weblog Google Operating System. Dat geeft vaak relevante resultaten, mits veel mensen ook op zoek zijn naar nieuws, maar kan ook tot verwarring en 'googlespam' leiden.

Spam bovenaan

Het was al langer bekend dat Google veel nieuwe pagina's vaak al binnen enkele minuten indexeert, onder andere door het afgrazen van rss-feeds. Bovendien tracht Google automatisch te achterhalen of iemand zoekt naar algemene informatie of een nieuwsfeit. De combinatie van deze factoren leidt tot het promoten van recente pagina's, waaronder soms ook veel dubieuze blogpostings, in de zoekresultaten.

Het verschijnsel treedt in extreme vorm op bij een zoekactie op Google naar 'january 1 tcp/ip', dat inhaakt op de vijfentwintigste verjaardag van de adoptie van het tcp/ip protocol door Arpanet. Een dozijn zeer recente maar onbeduidende en zelfs spampostings verschijnen bóven het relevant en belangrijk geachte Wikipedia-lemma over het internetprotocol. Dit probleem doet zich logischerwijs eerder voor bij specifieke zoektermen.

PageRank telt niet

De nieuwspromotie-functie omzeilt hiervoor dus het centrale wegingsmechanisme van Google's zoekmachine, de PageRank. Deze algoritmes bepalen hoe hoog een pagina eindigt op basis van de hoeveelheid 'inkomende' links en de autoriteit van de sites die er naar linken.

Maar een kersverse pagina of website heeft in beginsel nog helemaal geen inkomende links en zou dus onderaan een resultatenpagina moeten belanden. Google geeft dus blijkbaar prioriteit aan 'versheid' boven autoriteit en dat kan leiden tot ondeugdelijke zoekresultaten en maakt de zoekmachine gevoelig voor 'nieuwsspam'.