Google leest tekst in gescande documenten

google browser

Artikelgereedschap

  • Tip ons
  • Printen
  • Reacties (8)
Aanbevelen

Gepubliceerd: Zaterdag 1 november 2008
Auteur: Martin Gijzemijter

Google heeft de optische letterherkenningstechnologie (OCR) zo verfijnd dat de zoekrobot nu tekst van ingescande documenten op het web kan lezen en indexeren.

Dit meldde Google op z'n bedrijfsblog . Er staan veel gescande documenten op internet staan, meestal in pdf formaat, die tot voor kort niet opgenomen konden worden in de zoekmachine, omdat Google niet zeker kon zijn van de inhoud.

Links naar de afbeeldingen gaven wel enkele aanwijzingen met betrekking tot de inhoud, maar wat er daadwerkelijk op de afbeelding te lezen viel kon niet automatisch met zekerheid worden vastgesteld. Een gemiste kans volgens Google, omdat er veel ingescande documenten zijn van grote waarde, zoals wetenschappelijke artikelen en rapporten. Om nog maar te zwijgen van die miljoenen boeken, die Google zelf aan het scannen is voor Book Search.

Gescande documenten indexeren

Google schaaft al jaren aan zijn eigen Optical Character Recognition (OCR) systeem. Google heeft de technologie nu zo ver verfijnd dat het in staat is om alle gescande documenten die zijn opgeslagen als PDF-document, te lezen en te indexeren. Het bedrijf omschrijft dat de afbeelding eerst wordt omgezet naar een document waarbij de woorden daadwerkelijk woorden zijn (en geen afbeelding van woorden) waarna deze kunnen worden geïndexeerd.

Scans interpreteren is lastig

Digitale tekstdocumenten die naar pdf worden geconverteerd zijn nooit een probleem geweest, omdat de tekst hierin behouden blijft. Maar het gaat hierbij dus alleen om documenten die zijn ingescand en omgezet in een pdf-afbeelding. Die zijn een heel ander verhaal.

Reden hiervoor is dat de tekst vaak niet meer in dezelfde staat is als de digitale variant, bijvoorbeeld omdat er vouwen in het papier zitten of omdat er vlekken op het papier aanwezig zijn. Daarbij ontbreekt bij een scan informatie over de betekenis van letters. Bij een digitale tekst is het voor Google duidelijk of het gaat om een nul of de letter 'o', maar moet die tekst worden ingescand, dan is dat lang niet altijd even duidelijk, ook omdat het ook nog eens gewoon een cirkel kan zijn of het oortje van een koffiekopje.

Effectief

Om aan te tonen hoe effectief de nieuwe methode is, toont het bedrijf een aantal voorbeelden van zoekopdrachten. Zo is duidelijk te zien bij het eerste voorbeeld dat het bovenste zoekresultaat leidt naar een PDF-document met daarin slechts een afbeelding. Klikt de gebruiker echter op de knop HTML-versie, dan wordt de tekst getoond als digitale versie die te kopiëren en plakken is.

  • Categorieën:
  • E-commerce

Nieuwsbrief

Ontvang dagelijks een overzicht van het laatste ICT-Nieuws in uw mailbox

Whitepapers

  • Maximaliseer het voordeel van SaaS

    Cloud-applicaties hebben grote invloed op het gebruik van de IT-architectuur en niet ieder project levert de verwachte voordelen op.

    Downloaden
  • Overheid bespaart met cloud computingDiscussie over cloud-beleid overheid. Whitepaper over kosten, veiligheid en beschikbaarheid.
  • Kostenbesparing voor long tail appsOplossing voor kostenkwesties in VDI. Technologie geschikt voor long tail apps.
» Meer whitepapers

Peiling

Loading Poll

Video: Review: HTC One X-smartphone met vijf...

Review: HTC One X-smartphone met vijf cores (video)