
Datamining en dwergenporno (column)
Columnist Maarten Reijnders schrijft over de voor- en nadelen van datamining. En over zijn voorliefde voor porno met gehandicapte dwergen.
Columnist Maarten Reijnders schrijft over de voor- en nadelen van datamining. En over zijn voorliefde voor porno met gehandicapte dwergen.

Datamining en dwergenporno (column)
Columnist Maarten Reijnders schrijft over de voor- en nadelen van datamining. En over zijn voorliefde voor porno met gehandicapte dwergen.
Big Data. Getuige deze grafiek van Google Trends is het onderwerp sinds vorig jaar bezig om een redelijke hype te worden, maar dataminers, number-crunchers en andere nerds zijn er al tijden dol op: grote dataverzamelingen die je kunt doorploegen om interessante verbanden te leggen en voorspellingen te doen.
Deze praktijk werd enkele jaren geleden gepopulariseerd door de auteurs van het boek Freakonomics, Steven D. Levitt en Stephen J. Dubner, die lieten zien dat het legaliseren van abortus twintig jaar later tot gevolg kan hebben dat de criminaliteit daalt en uitlegden waarom het succes dat je in je leven hebt, mede afhankelijk kan zijn van de naam die je ouders je hebben gegeven.
De toepassingen van datamining zijn eindeloos. Wil je bijvoorbeeld weten of een fles wijn goed smaakt, dan kun je natuurlijk naar een wijngoeroe luisteren. Je kunt ook Orley Ashenfelter raadplegen. Ashenfelter is geen professionele wijnproever, maar een econoom aan Princeton. Om de kwaliteit van wijnen vast te stellen, gebruikt hij grote databestanden.
Op basis van de weergegevens in de regio Bordeaux van een aantal decennia achterhaalde hij welke weersomstandigheden leiden tot de lekkerste wijn. Zo kwam hij met een formule om de kwaliteit van de wijnoogst van een bepaald jaar vast te stellen:
Wijnkwaliteit = 12,145 + 0,00117 x regen in de winter + 0,0614 x de gemiddelde temperatuur tijdens het groeiseizoen - 0,00386 x regen tijdens de oogst
Wijnkenners moesten er aanvankelijk niets van hebben (“belachelijk", “dit is het werk van een Neanderthaler") maar Ashenfelters voorspellingen over de nieuwe wijnoogst bleken in de praktijk verdraaid goed te zijn. Beter nog dan die van veel 'professionele' wijndeskundigen. Het gevolg: ook de klassieke wijnexperts letten nu veel meer op het weer, zo schrijft Ian Ayres in zijn boek Super Crunchers.
Eens in de miljoen jaar
Nu het steeds goedkoper en makkelijker wordt om steeds grotere hoeveelheden informatie te verzamelen en door te ploegen, nemen ook de mogelijkheden van datamining flink toe. En dat is goed nieuws voor wie de wereld om ons heen beter wil begrijpen.
Tot zover het goede nieuws. Want je kunt ook een paar kanttekeningen plaatsen bij alle zegeningen die datamining ons lijkt te brengen. De eerste is een praktische. Voor veel mensen heeft het iets geruststellends: de zekerheid die al die formules ons lijken te bieden. Maar (sociale) processen blijken lang niet altijd, of niet onder alle omstandigheden, in een formule te vangen.
Toch hebben veel number-crunchers en dataminers die illusie wel. Een mooie illustratie van hoe het ongebreidelde geloof in simpele formules die een complexe werkelijkheid beschrijven, verkeerd kan uitpakken, vormt de kredietcrisis.
Als er namelijk één plaats is waar ze dol zijn op formules waarmee je de toekomst kunt voorspellen, dan is het wel bij de banken, de hedge funds en optiehuizen die in aandelen, opties en allerhande exotische financiële producten handelen. Massaal hebben zij hun lot in handen gelegd van quants: bollebozen die formules opstellen waarmee de handelaren kunnen vaststellen wat de juiste prijs is voor een product en wat ze moeten kopen of verkopen om zoveel mogelijk te verdienen.
Vaak gaat dat goed. Maar soms gaat het ook verkeerd. Tijdens de financiële crisis van 2008 bijvoorbeeld. Toen bleek dat veel voorspellende modellen opeens niet meer bleken te kloppen. Uitzonderlijke gebeurtenissen die volgens de opstellers van de formules hooguit eens in de miljoen jaar zouden voorkomen, deden zich opeens verscheidene malen op één dag voor. Oeps!
Zwanger
Het tweede probleem met al die datamining is van ethische aard. Waar gebruik je de informatie voor die je via het doorploegen van datasets hebt verkregen? Met een formule waarmee je de kwaliteit van de rode wijn van dit jaar kunt vaststellen, is vanzelfsprekend niet zoveel mis. Al die gewichtige wijnproevers die nu de dienst uitmaken, zijn er misschien niet zo blij mee, maar verder zal niemand er zwaar onder lijden dat er op Princeton een econoom rondloopt die met behulp van een formule de wijnprijzen kan voorspellen.
Heel anders ligt dat als allerlei gegevensverzamelingen worden gebruikt om het gedrag van individuen te voorspellen - om daar vervolgens weer commercieel of anderszins op in te spelen.
Recent was er nogal wat te doen over de Amerikaanse warenhuisketen Target die op basis van het aankoopgedrag van vrouwelijke klanten met een redelijk grote waarschijnlijkheid kan bepalen of ze zwanger zijn. Zelfs de datum waarop de baby zal worden geboren, kunnen ze bij benadering vaststellen.
Dat is handig om te weten voor Target. Want hoewel veel consumenten gewoontedieren zijn die hun pak melk bij de supermarkt kopen en voor een staafmixer naar een warenhuis gaan, zijn er een paar momenten in een leven waarop mensen bereid zijn van hun gebruikelijke winkelroutine af te wijken. Kort na de geboorte van een kind bijvoorbeeld, als je het liefste al je boodschappen bij één winkel doet. Om ervoor te zorgen dat die ene winkel de Target is, bestookt de winkelketen zwangere vrouwen met op maat gemaakte aanbiedingen voor babyspullen.
Dat kan af en toe tot pijnlijke situaties leiden, zo blijkt uit een artikel in het magazine van The New York Times. Een vader van een middelbare scholiere meldde zich boos bij een Target-vestiging. Waarom zijn dochter reclame kreeg voor een wieg en babykleren, wilde hij weten. 'Probeert u haar soms aan te moedigen om zwanger te worden?'
De manager van de winkel bood ter plekke zijn verontschuldigingen aan en belde enkele dagen later nog eens op om nogmaals zijn spijt te betuigen. De tweede keer blies de vader echter aanmerkelijk minder hoog van de toren. “Ik heb een gesprek gehad met mijn dochter, en het blijkt dat er zaken zijn gebeurd waarvan ik niet helemaal op de hoogte was. Haar baby is uitgerekend voor augustus."
Duitse schlagers
Nu is wat winkels kunnen vaststellen op basis van ons consumptiepatroon natuurlijk nog maar kinderspel in vergelijking met de conclusies die je zou kunnen trekken op basis van iemands internetgedrag. De betere webwinkel trekt die conclusies al jaren en doet je suggesties aan de hand voor producten waarvan je zelf nog niet wist dat je ze wilde hebben. “Andere kopers van de autobiografie van Han Peekel kochten ook 'Bereik je ideale gewicht' van Sonja Bakker."
Maar in theorie is er natuurlijk nog veel meer mogelijk. Met internet delen we immers de meest intieme geheimen die we zelfs niet aan onze beste vrienden toevertrouwen. Mijn nachtelijke YouTube-sessies op zoek naar Duitse schlagers, het Facebook-profiel van die onbeantwoorde liefde dat ik 327 keer per dag F5 en mijn onstilbare behoefte aan porno waarin gehandicapte dwergen figureren: ik houd het bij voorkeur allemaal geheim voor de buitenwereld.
Partijen die over dergelijke gedetailleerde informatie over je diepste angsten en verlangens beschikken, zitten op een potentiële goudmijn. De verleiding om - stapje voor stapje - steeds meer gebruik te maken van die informatie, om steeds meer datasets aan elkaar te koppelen en op basis daarvan trends vast te stellen en voorspellingen te doen, is groot.
Vandaag is het nieuwe privacy-beleid van Google van kracht geworden. De belangrijkste vernieuwing is dat Google de gegevens van de ene dienst nu kan combineren met die van een andere dienst. De internetgigant zal daardoor nog beter begrijpen waarnaar je op zoek bent, de zoekresultaten worden nog persoonlijker en je krijgt advertenties voorgeschoteld die nog relevanter zijn.
Volgens Google zelf is dat vooral om mensen beter van dienst te zijn. Dat wilden ze bij Target vermoedelijk ook: hun klanten beter van dienst zijn. De vraag is of de zwangere tiener die wat extra lotion bij de winkel kocht, dat ook zo heeft ervaren.
Als ik eerlijk ben: als ik zie wat de gemiddelde webshop aan advertenties toont (vaak zaken die ik net bij ze gekocht heb, alsof ik dan opeens een tweede wil hebben) of die een bedrijf als google/facebook aan me laar zien, dan denk ik dat de algoritmes nog lang niet uitontwikkeld zijn.
Ik weet niet of sporten beter is, gewoon op de fiets naar het werk en de trap nemen ipv. de lift is misschien wel beter.
Bij sporten komen veel blessures van. Als je bungyjumpen goed doet en het gaat dan mis, zijn er helemaal geen ziektekosten meer ;-)
That depends; zorgverzekeraars zouden dit soort gegevens maar WAT graag in handen hebben.
Voorbeeld: ik rook (jaja ik weet het, slechte gewoonte). Mijn zorgverzekeraar zou mij maar wat graag een hogere premie laten betalen, terwijl het HELEMAAL niet gezegd is dat ik door mijn gewoonte "meer kost". Ja, wel als ik longkanker krijg, maar dat overkomt maar 20% van de rokers (grofweg). Als ik daarentegen op mijn 50ste dood neerval door hartfalen BESPAAR ik ze juist geld (geen dure kunstheup op m'n 70ste etc.). Voorts heb ik geen hobby's als bungeejumpen of wildwaterkanoen, dat scheelt ook een hoop ziektekosten. Maar rokers (en b.v. mensen met overgewicht, dat heb ik dan gelukkig weer niet ;)) zijn natuurlijk een easy target, want wie wil nou bij zo'n groep horen? Hup, stoppen of sporten zul je! Of meer betalen, de leasebak van de directeur moet toch ergens van betaald worden.
Zolang het puur commercieel is (daar ben ik het met Lampje74 eens) moeten bedrijven het lekker voor zichzelf weten - ik heb altijd de optie ergens anders heen te gaan. Zodra het iets verplichts als een zorgverzekering of b.v. belastinggegevens raakt wordt het eng. Want de voorspellingen mogen vaak redelijk zijn, het blijven statistische benaderingen op basis van een gemiddelde.
Zolang het "maar" commercieel is kun je er meestal om lachen: ik (man) drink graag witte wijn, "dus zal-ie wel homo zijn want dat drinken homo's ook meestal". Als ik vervolgens aanbiedingen voor gay dating sites krijg kan ik daar alleen maar om lachen. Het zwangere tienermeisje uit het artikel waarschijnlijk al minder, en als je vriendin op jouw PC, ehm, compromitterende banners te zien krijgt heb je al helemaal wat uit te leggen. Of erger nog (maar dan gaan we alweer over de grens van commercie heen): de overheid die reisgegevens van de OV shitkaart opvraagt omdat er een misdrijf is gepleegd. Dus of iedereen die die avond op lijn 128 reed zich even wil melden, want je bent verdacht. Brrr!
Het minen is wel betrouwbaar, de mensen die de conclusies trekken alleen niet. Zo werkt dat met alle vormen van statistieken, statistieken liegen niet, maar ben je wel in staat om de juiste conclusies te trekken?
Data mining is alleen maar een hulpmiddel. Het levert statistieken over een x onderwerp, maar je kunt zo beperkt kijken als je zelf maar wilt. Data mining samen met oogkleppen is een nare combinatie die vermeden moet worden.
Over het algemeen wordt de (vermeende) objectiviteit van statistiek ondergesneeuwd door de ongelooflijk buigzame conclusies.
Om Theo Maassen te quoten: "Argumenten zijn het probleem niet, maar waar wil je het heen geluld hebben?"
En dan gaat deze column alleen nogmaar over de comercieele insteek in het data-minen... Wat de overheden en justitie er mee doen is helemaal om ziek van te worden.
wat bv bleek uit het data minen naar de eigenschappen rondom de 9-11 'piloten'... een of meerdere amerikaanse politicy of anderzijds bekende amerikanen, waar niks van was te vrezen, voldeden ook aan dat profiel. Dus hoe betrouwbaar is het minen... bij een groot genoege database zijn alle conclusies te trekken die je maar wil, dus ook volledig tegenstrijdige conclusies.
Reageer
Preview