Het is alweer zes jaar geleden dat Apple Siri aan iOS toevoegde en spraakherkenning zijn eerste schreden richting de mainstream zette. De afgelopen jaren is spraakbesturing een steeds grotere rol gaan spelen, vooral met de IoT-domotica in apparaten als Google Home of Alexa. Gebruikers zijn zo langzaam gaan wennen aan het idee van invoer door te spreken.

Dat is tot nu toe vooral een consumentenkwestie geweest en in het bedrijf is nog weinig spraakherkenning te vinden. Dat begint te veranderen, wellicht vooral als Windows 10's assistent Cortana onze taal eens leert spreken. Je ziet al dat mensen assistenten als Google Now en Siri aanspreken om agenda's te beheren en afspraken in te stellen.

Geen Star Trek

Maar niet voor iedere functie is spraakherkenning even zinvol, dus laten we eens kijken naar wat een logisch traject is voor deze feature in een IT-omgeving. Je hoort veel over het slimme kantoor of spraakgestuurde zakelijke omgevingen, wat bij veel mensen een Star Trek-achtig beeld oproept van mensen die de computer commanderen door te spreken, maar dat is geen realistisch scenario.

Het zou een mooie boel worden als iedereen overal computers aansprak, niet in de laatste plaats omdat we functionaliteit zouden moeten leveren die ervoor zorgt dat alleen gebruiker X interface Y kan aanspreken en je geen 'kruisbesmetting' krijgt van mensen die tegelijk praten. Zelfs in Star Trek zie je bemanning nog regelmatig aanraakbediening en andere LCARS-interfaces gebruiken, omdat spraakbediening niet in elke situatie even logisch is.

Begin van het tijdperk

Met andere woorden, wat we nu in veel thuisomgevingen zien gebeuren, schaalt slecht naar een zakelijke omgeving. Je kunt dan ook verwachten dat spraakbediening vooral gebruikt gaat worden voor equivalenten van thuisgebruik, bijvoorbeeld in privékantoren en om apparaten in vergaderzalen aan te sturen.

Lees verder: Het draait allemaal om de juiste API's

Het inzetten van de tech op bepaalde locaties en kleine ruimtes zorgt voor een versimpelde uitrol, omdat er niet veel extra voor te hoeft worden geleverd: de meeste mobiele apparaten, pc's en wearables bieden al ondersteuning voor spraak. Relatief goedkope apparaten kunnen ook op kantoor worden gebruikt voor min of meer dezelfde dingen als thuis.

De belangrijkste vraag draait niet eens zozeer om waar we spraakinterfaces gebruiken, maar om hoe we dat doen. Het antwoord daarop ligt in de apps en API's die we gebruiken.

Praktijkvoorbeeld

Stel je de volgende opdracht voor: "Stuur de budgetbestanden van de onderhoudsafdeling van de afgelopen maand naar Jan, zodat hij de grafieken in dia's 3 en 4 van de afdelingspresentatie volgende week kan bijwerken." Dat lijkt een redelijke opdracht, maar hij bevat een heleboel verschillende instructies.

De achterliggende software moet verschillende opdrachten destilleren: het opstellen van een bericht naar de juiste ontvanger, het opzoeken en koppelen van de juiste bestanden, het toevoegen van instructies aan Jan over wat de bedoeling is, markeren van individuele PowerPoint-dia's voor de bijgewerkte gegevens en het bewerken van een afspraak voor de afdelingspresentatie.

Verschillende programma's

Afhankelijk van de tooling die wordt gebruikt, kan dit gemakkelijk vier verschillende applicaties aanspreken en lokale, netwerk en cloudresources gebruiken. Deze moeten daarom allemaal met elkaar kunnen praten, ook al hebben ze los van elkaar geen spraakinterface. Kortom, er is een overkoepelende API nodig om ze aan elkaar te knopen.

Hierna: Hoe ziet zo'n API eruit?

De meeste opdrachten zijn relatief simpele workflows, die op de achtergrond kunnen ontaarden in complexe stromen. Als je ooit met Apple's HomeKit aan de slag bent gegaan, ken je waarschijnlijk jet idee van scenes waarmee je soortgelijke workflows op meerdere apparaten kunt toepassen. Bijvoorbeeld een spraakopdracht als "ik ga weg" vertaalt zich dan naar het uitschakelen van de lampen, omlaag draaien van de verwarming en het op slot draaien van de voordeur.

Bouwstenen

Je verwerkt opdrachten met triggers in een IFTTT (If This, Then That) configuratie. Zo kun je op een vrij simpele manier complexe schema's opbouwen om het doel van een simpel ogende opdracht efficiënt te verwerken. De uitdaging voor IT-omgevingen is om een framework te bouwen die zulke opdrachten en workflows zelf ad hoc uitvogelt.

Het geheime bindmiddel om spraak te laten werken is het platform, de apps die nodig zijn en de API's die opdrachten, informatie en resultaten uitwisselen. Met Amazons Alexa zie je een voorbeeld van hoe dit in het klein werkt: nieuwe mogelijkheden worden toegevoegd als apps en worden onderdeel van het pakket dat mensen gebruiken. Je kunt vaardigheden als bouwstenen van het totale platform zien.

Meerdere talen, andere uitdagingen

Op de werkvloer betekent dit dat IT platforms moet vinden/bouwen om ervoor te zorgen dat nieuwe features als apps beschikbaar gesteld kunnen worden in de zakelijke app-store. Een uitdaging is het ontwerp dat niet gebonden is aan een specifiek apparaat, besturingssysteem, opslagdienst, losse app of specifieke gebruiker. Ook moeten apparaten vaak meertalig kunnen worden aangesproken. Dus het gebruik van spraak moet goed worden doordacht en uitgebreid worden getetst voor het uitgerold kan worden.

Ten slotte: Hoe gaan we om met de dreigende fragmentatie?

Nog een kritiek issue: volstaat een enkele stem of virtueel platform, of moet er een mix gebruikt worden van meerdere opties - laten we zeggen Siri, Cortana en Google Assistant

Verschillen per versie

Hier zijn zowel uitdagingen als kansen. Met Siri als uitzondering, is het meestal zo dat spraakplatforms gebruikt kunnen worden op non-native apparaten en besturingssystemen. Maar hoewel Cortana en Google Assistant inzetbaar zijn op Windows, Android en iOS, verschillende de integratiemogelijkheden per onderliggend systeem.

Ook kan het uitmaken welke versie van een OS je gebruikt wat betreft de verschillende mogelijkheden die beschikbaar zijn. Dat ga je zien tussen enkele versies van Windows 10, maar is vooral een uitdaging voor Android, met een veel bredere fragmentatie dan een iOS of Windows, dat gebruikers veel dwingender naar nieuwe versies trekt.

Klaar voor het werk?

IT'ers zullen in dat geval meerdere platforms moeten ondersteunen, of een overkoepelende strategie moeten ontwerpen die gecommuniceerd moet worden naar gebruikers. Dit kan dan ook wel eens de doorslaggevende factor zijn in het gebruik van spraakbediening op het werk. Zoals met alles in de IT, is een gezonde adoptie van gebruikers het belangrijkste meetinstrument voor succes.

Spraakherkenning is al aanwezig in bedrijven, onder meer in diverse productiviteitstoepassingen. Maar spraak staat nog steeds in de kinderschoenen, ook al is het nu al meer dan een half decennium op de markt. De omslag die het belooft staat er aan te komen, maar de uiteindelijke samenkomst van hardware, platform en apps die deze potentie omzetten in daadwerkelijk succes lijkt vooralsnog te ontbreken.

Niettemin is het een revolutie die staat te gebeuren en de tijd is aangebroken dat ontwikkelaars en systeembeheerders de trend opmerken en plannen gaan smeden.