De Turingtest wordt gepresenteerd als een methode om te ontdekken of je met kunstmatige intelligentie te maken hebt, of met een mens. Het experiment van Alan Turing gaat over de vraag of je gedrag van een computer kunt onderscheiden van dat van een mens. Het is daarmee een test voor computerintelligentie: kunnen computers mensen nabootsen?

De Turingtest zegt dus nog erg weinig over de werkelijke intelligentie van de computer die hem voor zijn kiezen krijgt en al helemaal niets over of die zelfbewust is. De misvatting dat de Turingtest uitwijst of we te maken hebben met AI, leidt met enige regelmaat tot de conclusie dat een chatbot intelligentie heeft bereikt.

Zelfs ontwerpers van intelligente programma's staan soms verbaasd over wat een computer allemaal al niet kan. Maar het gaat daarbij nog altijd over voorgeprogrammeerde acties. Echte kunstmatige intelligentie voert acties uit die niet worden ingesteld, maar die het programma volledig autonoom leert. Wat dat betreft is de ietwat bevreemdende kattenherkenner van Google een interessante stap voorwaarts.

Tijd om eens te kijken wat de meetinstrumenten zijn om écht goed te bepalen of we te maken hebben met een computer of een mens - die niet makkelijk gefopt kunnen worden door een chatbot als Eugene. Vier voorbeelden.

1. Lovelace-test (2.0)

Pionierende programmeur Ada Lovelace (1815-1852) stelde dat een algoritme à lá de analytical engine die ze ontwikkelde voor de rekenmachine van Charles Babbage enkel kennis kan reproduceren en nooit zelf iets nieuws kan creëren. Alan Turing haalt dit citaat zelfs aan in zijn voorstel voor een imitatietest.

Een echte intelligentietest is daarmee juist geen imitatietest, maar een creatietest. Een computer moet zelf met iets op de proppen komen, dat niet voorgeprogrammeerd is. De Lovelace-test (PDF) springt daarop in door van mens en computer bijvoorbeeld te vragen om een verhaal te schrijven dat moet voldoen aan een aantal criteria.

Zo krijgen in een recente opzet (Lovelace 2.0, PDF) subjecten de opdracht een verhaal te schrijven met vijf specifieke gebeurtenissen. Het product van deze verzameling is creatie: er ontstaat een uniek verhaal. In tegenstelling tot een computergegeneerd 'kunstwerk' moet dat een logisch geheel zijn en geen geplakte mix van elementen. Er komt ongetwijfeld een systeem dat dit perfectioneert - en het zal heus geen AI zijn die dit als eerste presteert - maar de Lovelace-test is wel een goede benchmark in de jacht naar natuurlijkere machines.

2. Winograd Schemas-vraagstelling

Deze test, vernoemd naar computerwetenschapper Terry Winograd van de Amerikaanse universiteit Stanford, gaat uit van een actie die duidt op echte intelligentie: een mens of computer moet een zin analyseren om daar het onderwerp uit te halen. Zo simpel is het overigens niet - grammatica en syntaxis met hun voorspelbare structuur moeten immers ook programmeerbaar zijn - de voorbeeldzin wordt gevolgd door een vraag over verwijzingen.

In de zin moeten daarom twee partijen voorkomen, er moet een verwijswoord zijn naar een van de twee en er is een operator nodig die ervoor zorgt dat de verwijzing anders wordt geïnterpreteerd (PDF). Een voorbeeld: "De prijs [partij 1] paste niet in de koffer [partij 2] omdat het [verwijzing] te klein/groot [operator] was".

Wat was te klein/groot? Bij 'klein' is het antwoord "de koffer", bij 'groot' is het antwoord "de prijs".

Op de volgende pagina: twee niet-wetenschappelijke suggesties.

3. Rube-test

Oké, deze bestaat niet echt. Ik stel hem zelf even voor naar aanleiding van een aflevering uit de tv-serie Dead Like Me waarin de hoofdrolspelers kunstmatige intelligentie bediscussiëren nadat iemand verbaasd is over een telefoonrobot. Daarin stelt hoofd-reaper Rube Sofer dat computers nooit menselijk zullen worden.

"Als een computer uit z'n dak gaat tegen een parkeerwachter of zelfmoord pleegt omdat het denkt dat het te dik is, dan geloof ik in kunstmatige intelligentie", aldus Rube. Een Rube-test zou daarop in moeten springen. Turing, Lovelace en Winograd gaan allemaal over productie, een interessante test zou psychologische reacties meten.

De eveneens fictieve Voight-Kampff-test uit de film Blade Runner analyseert of een mens niet toevallig een androïde is met een serie filosofische en psychologische vragen terwijl er een soort leugendetector is gekoppeld. Een Rube-test lijkt me iets voor een eerder stadium; om computersystemen aan te onderwerpen. Ik dien meteen een patentaanvraag in voor "een methode om door middel van psychologische vragen een mens van een systeem te onderscheiden".

Ach, dat patent is er vast al.

4. Ebert-test

Legendarische filmcriticus Roger Ebert kon in de laatste jaren van zijn leven niet meer spreken en gebruikte software die zijn stem simuleerde om presentaties te geven in het openbaar. Op een TED-talk gebruikte hij het programma om een grap met een baard te vertellen, wat gelach opleverde van het publiek.

Hij stelde en passant de Ebert-test voor om te bepalen of een computersysteem menselijk overkwam. (Kortom, wat meer lijkend op de originele Turingtest). Die test draait om een computer die een grap moet kunnen vertellen, compleet met komische timing, zoals een mens dat zou doen. De Ebert-test gaat daarbij meer over de synthetische stem dan over intelligentie.