De zoekmachinegigant neemt ReCaptcha over om in te zetten voor het digitaliseren van moeilijk te scannen teksten. ReCaptcha is een dienst die handgeschreven tekst gebruikt als antispammaatregel. De woorden die door ReCaptcha worden gegenereerd zijn onleesbaar voor computers, maar wel leesbaar voor mensen. De dienst wordt gebruikt op websites om onderscheid te kunnen maken tussen een mens en een spambot of malwareverspreider.

ReCaptcha gaat daarin iets verder dan bijvoorbeeld het Captcha-systeem van Google zelf. ReCaptcha laat in plaats van willekeurig gegenereerde tekst, woorden zien uit ingescande, oude boeken en kranten die niet gelezen kunnen worden door computers. Het idee achter de dienst is dat de gebruikers die iets willen plaatsen op een website meehelpen met het digitaliseren van die boeken door de voor de computer onduidelijke tekst te spellen. "De 'crowd' helpt bij het leesbaar maken van gescande boeken", aldus ReCaptcha.

Books en nieuwsarchief

Op deze manier wil ReCaptcha de nog niet altijd toereikende Optical Character Recognition (OCR) aanvullen. Dat systeem wordt gebruikt bij het scannen van oude boeken en kranten. Dezelfde technologie wordt ook al gebruikt door Google bij het inscannen van boeken voor Google Books en Google News Archive Search.

"De tekstversie van documenten in handen hebben is belangrijk, omdat platte tekst doorzoekbaar is, makkelijk te tonen is op mobiele telefoons en leesbaar is voor slechtzienden", schrijft Google op het bedrijfsblog. De Captcha-technologie wordt niet alleen ingezet om fraude tegen te gaan en spam terug te dringen, maar zal "ook ons boeken- en krantenscanproject verbeteren".

Digitaliseren

ReCaptcha wordt op dit moment door ongeveer 100.000 sites gebruikt en helpt met het digitaliseren van oude edities van The New York Times. Hoeveel Google betaalde voor de overname is niet bekendgemaakt.