Tekstinformatie kan doorgaans snel gevonden worden met bijvoorbeeld een index of via Google. Zoeken in audio- en videobestanden is lastiger. Hiervoor is een zogeheten Spoken Document Retrieval (SDR)-systeem nodig.

De Human Media Interaction-groep van de Universiteit Twente ontwikkelde eerder een dergelijk SDR-systeem voor het indexeren van trefwoorden uit het NOS journaal. Met behulp van zoektermen kan gezocht worden naar bepaalde onderwerpen. Dit systeem is echter specifiek getraind met teksten uit dagbladen en twintig uur aan uitzendingen. Wie het ongetraind toepast op andere videobestanden, zal merken dat het minder goed werkt.

Stemmen en achtergrondruis

Promovendus Marijn Huijbregts van de Universiteit Twente zegt nu ook resultaten te hebben geboekt met audio- en videobestanden die een spraakherkenner vooraf helemaal niet kent. SHoUT (Spraak Herkenningsonderzoek Universiteit Twente) weet onderscheid aan te brengen tussen spraak en andere geluiden. Achtergrondmuziek en spraak worden gescheiden.

De tweede stap is het identificeren van de verschillende sprekers. "Dat lukt aardig," zegt Huijbregts tegen Webwereld. "Niet alleen kun je vrouwen- en mannenstemmen onderscheiden, maar ook mannen- en vrouwenstemmen onderling. Met name bij het automatisch notuleren van vergaderingen zou dat van pas kunnen komen, maar ook bij het uitwerken van tv-interviews." Huijbregts promoveerde vorige week op zijn onderzoek (pdf).

Woordenschat

De mate waarin spraak herkend kan worden, is nog wel sterk afhankelijk van een aantal factoren, zo moet Huijbregts toegeven. De woordenschat van de spraakherkenner bestaat uit zo'n 65 duizend woorden, wat ongeveer het maximum is. Het taalmodel vertelt het systeem in welke combinaties van woorden een woord vaak voorkomt. Het helpt als de context waarin iets wordt gezegd bekend is.

Heijbregts: "Het foutpercentage hangt sterk af van het soort data. Journaaldata kunnen we verwerken met een foutpercentage van 20 tot 30 procent. Dat is ruim voldoende voor het gebruik in zoekmachines. Maar als de audio matig is kan het foutpercentage oplopen tot zelfs boven de 60 procent."

Benchmark

Het onderzoek aan de Universiteit van Twente staat dan niet op zichzelf. Zowel in Europa als in de VS wordt soortgelijk onderzoek verricht. Zelf is Huijbregts al eens in Berkeley, Californië geweest. "Iedereen richt zich wel op verschillende aspecten."

Bij de eerste Nederlandse benchmark N-Best (een wedstrijd voor spraakherkenners) van TNO was de werkgroep met een foutpercentage van gemiddeld iets boven de 30 procent derde achter de universiteit van Brno en het Franse onderzoeksinstituut LIMSI.

GAudi

Ook internetgigant Google heeft zich op spraakherkenning gestort. Recentelijk onthulde GAudi, Google Audio Indexing, die speeches van politici volautomatisch omzetten naar doorzoekbare tekst, die vervolgens weer wordt gekoppeld aan de videotrack. En vorige week introduceerde Mountain View spraakgestuurd zoeken via de iPhone.