Bij spraakherkenning bestaat niet alleen het probleem van de vele talen die door elkaar gebruikt kunnen worden. Binnen één taalgebied spreekt bovendien elke persoon op een andere manier, met een eigen intonatie, kleur en snelheid. Het hoeft dan ook niet te verwonderen dat elke softwarematige oplossing op de markt zwaar steunt op een intensieve leerfase van de gebruiker. De markt van de spraakherkenners is intussen ineengeschrompeld tot enkele gespecialiseerde nicheproducten en één grote slokop: ScanSoft.

Enige keuze

Deze Amerikaanse groep kijkt niet op een overname meer of minder. Het begon in 1993 onder de vleugels van moederbedrijf Xerox, maar verzelfstandigde en groeide daarna snel door acquisities van al of niet complementaire concurrenten: onder meer Visioneer, Caere (dat daarvoor Recognita had opgeslokt), de beste stukjes Lernout & Hauspie (namelijk de technologie van hun VoiceXpress product), de Speech Units van Philips (makers van het ter ziele gegaan FreeSpeech) en SpeechWorks.

Sinds een paar jaar distribueert het zelfs ViaVoice van zowat de enige overgebleven tegenspeler: IBM. Dit doet ScanSoft als aanvulling van het aanbod beschikbare talen en als oplossing voor niet-ondersteunde platformen als het Macintosh OS of Linux.

Maar het vlaggenschip blijft Dragon NaturallySpeaking (DNS), waarvan het prefix verwijst naar nog maar eens een overname. Zij het deze keer onrechtstreeks, via het eerder door L&H overgenomen Dragon Systems. Dit pakket kreeg onlangs een nieuwe versie 8 toebedeeld, en is zo goed als de enige keuze voor Windows-adepten. In de Mac-wereld is er nog iListen van producent MacSpeech, en hiermee is het aanbod zo ongeveer uitgeput. Ook de schraalte van het aanbod wijst dus op de complexiteit van de oefening. Want hoe werkt dat, het geautomatiseerd herkennen van spraak?

Hidden Markov

Ten grondslag liggen de zogenaamde Hidden Markov-modellen. Markov was een Russische wiskundige uit het begin van de twintigste eeuw die Russische gedichten statistisch wilde modelleren. Het komt neer op berekeningen in de stijl van 'Als de eerste letter van een woord een D is, wat is dan de kans dat de volgende letter een E wordt?'. Lange rijen zaken kunnen op deze manier wiskundig beschreven worden. In de context van spraakherkenning: lange ketens van woorden (lees: zinnen) kunnen zo uitgeplozen en herkend worden.

Deze woorden komen terecht in lexicons, waarin tijdens de training voor elk woord en voor elke combinatie van twee of drie opeenvolgende woorden die kans berekend wordt. Op een dieper niveau herhaalt zich deze aanpak: een woord is een opeenvolging van klanken, fonemen genaamd. En ook die krijgen hun kansberekening. Eén enkel foneem ten slotte is een ultra kort rijtje van toestanden: een begin, een midden en een einde van de klank, waar eveneens een kans op geplakt wordt. Het trainen van de herkenner komt dan neer op het opbouwen van die statistieken.

Het spreekt voor zich dat zo'n trainingsfase als een noodzakelijk kwaad door de gebruiker ervaren wordt. Het is dus van belang deze zo aangenaam mogelijk te houden. DNS 8 bijvoorbeeld doet dit door zeven teksten aan te bieden. Bovendien kan het ook om een serie opgeslagen documentbestanden of e-mails gaan, om zo het woordgebruik en de woordenschat van de spreker te analyseren. Maar dit maakt het hele proces helaas gebruikersgebonden. Herkenning van hetgeen een willekeurige spreker zegt, is dus nog verre toekomstmuziek.

Nichekringen

In de spraakherkenning wordt de kwaliteit afgewogen aan het procentueel aantal fout herkende woorden na een voldoende uitgebreide leerfase. Eenheid hierbij is de wer, of 'Word Error Rate'. Hoe kleiner die is, hoe beter. DNS gaat prat op een wer van iets meer dan 6 procent, zodat er nog steeds flink wat verbeteringswerk te doen is.

Hierdoor kan dicteren nog niet tippen aan het klassieke toetsenbord. Ook de pure besturing van de computer (het starten van Word door mondeling daartoe het bevel te geven, bijvoorbeeld) lijkt nog niet veel voordeel op te leveren ten opzichte van de dubbelklik of menukeuze met de muis.

Wie heeft dan nu al iets aan deze technologie? Vooral bepaalde nichekringen doen hier hun voordeel mee. Hierbij kan gedacht worden aan medici of juristen, die hun bevindingen of pleidooien inspreken en via DNS zonder al teveel moeite of tijdsverlies een uitgeschreven kopie bekomen.

De grote massa zal nog niet snel instappen, zolang er geen mouw gepast wordt aan een aantal storende tekortkomingen. Die zijn legio: de noodzaak van het gebruikersprofiel dat het dicteren sprekergebonden houdt, of de saboterende invloed van omgevingsgeluiden, het door elkaar gebruiken van verschillende talen en dialecten, de vervormingen die een stem kan ondergaan (over de telefoonlijn, bij heesheid of een verkoudheid of op een slecht verstaanbare opname) en de impact daarvan op de precisie. Niet voor wordt DNS geleverd met een headset van hoge kwaliteit om alvast een paar van die factoren zoveel mogelijk weg te nemen.

Gemengde gevoelens

Kortom, spraakherkenning gaat nog immer gepaard met gemengde gevoelens. Toch heeft Dragon NaturallySpeaking een aantal verdiensten. Om te beginnen is de prijs voor iedereen haalbaar. Van de vier beschikbare versies is de low-end Standard er al voor minder dan honderd euro. En die bevat voldoende functionaliteit om al eens te proeven van deze technologie.

De andere varianten heten Preferred (200 euro), Mobile (300 euro, inclusief een digitale Voice Tracer 7680 recorder van Philips) en Professional (800 euro). Extra mogelijkheden hierbij zijn zaken als het importeren van opnames uit pda's, het omgaan met meerdere dictaatbronnen of het onderhouden van diverse recorderprofielen. Vooralsnog niet echt mogelijkheden waar de massa op zit te wachten. Waarop het nog wél even wachten is, is een honderd procent praktisch bruikbare oplossing.