Dit meldde Google op z'n bedrijfsblog . Er staan veel gescande documenten op internet staan, meestal in pdf formaat, die tot voor kort niet opgenomen konden worden in de zoekmachine, omdat Google niet zeker kon zijn van de inhoud.

Links naar de afbeeldingen gaven wel enkele aanwijzingen met betrekking tot de inhoud, maar wat er daadwerkelijk op de afbeelding te lezen viel kon niet automatisch met zekerheid worden vastgesteld. Een gemiste kans volgens Google, omdat er veel ingescande documenten zijn van grote waarde, zoals wetenschappelijke artikelen en rapporten. Om nog maar te zwijgen van die miljoenen boeken, die Google zelf aan het scannen is voor Book Search.

Gescande documenten indexeren

Google schaaft al jaren aan zijn eigen Optical Character Recognition (OCR) systeem. Google heeft de technologie nu zo ver verfijnd dat het in staat is om alle gescande documenten die zijn opgeslagen als PDF-document, te lezen en te indexeren. Het bedrijf omschrijft dat de afbeelding eerst wordt omgezet naar een document waarbij de woorden daadwerkelijk woorden zijn (en geen afbeelding van woorden) waarna deze kunnen worden geïndexeerd.

Scans interpreteren is lastig

Digitale tekstdocumenten die naar pdf worden geconverteerd zijn nooit een probleem geweest, omdat de tekst hierin behouden blijft. Maar het gaat hierbij dus alleen om documenten die zijn ingescand en omgezet in een pdf-afbeelding. Die zijn een heel ander verhaal.

Reden hiervoor is dat de tekst vaak niet meer in dezelfde staat is als de digitale variant, bijvoorbeeld omdat er vouwen in het papier zitten of omdat er vlekken op het papier aanwezig zijn. Daarbij ontbreekt bij een scan informatie over de betekenis van letters. Bij een digitale tekst is het voor Google duidelijk of het gaat om een nul of de letter 'o', maar moet die tekst worden ingescand, dan is dat lang niet altijd even duidelijk, ook omdat het ook nog eens gewoon een cirkel kan zijn of het oortje van een koffiekopje.

Effectief

Om aan te tonen hoe effectief de nieuwe methode is, toont het bedrijf een aantal voorbeelden van zoekopdrachten. Zo is duidelijk te zien bij het eerste voorbeeld dat het bovenste zoekresultaat leidt naar een PDF-document met daarin slechts een afbeelding. Klikt de gebruiker echter op de knop HTML-versie, dan wordt de tekst getoond als digitale versie die te kopiëren en plakken is.