BIG DATA, BIG BROTHER, BIG BUSINESS

Datacenters combineren miljoenen stukjes informatie en ontdekken zo dat iemand zwanger is.

Met elk telefoontje en elke muisklik geeft u informatie over uzelf prijs. En maakt u zich vooral geen illusies: al die informatie wordt opgeslagen. Het fenomeen ‘big data’ zal álles veranderen, van uw koopgedrag tot de wereldwijde griepbestrijding.

Die dag in Minnesota. Een boze vader loopt een winkel van de Target-keten binnen, wapperend met een envelop vol voordeelbonnen. ‘Mijn dochter heeft dit met de post gekregen!’ roept hij. ‘Ze zit nog op school, en u stuurt haar bonnetjes voor kinderkleren en wiegjes! Wilt u soms dat ze zwanger wordt?’ Een manager biedt zijn excuses aan. Enkele dagen later belt hij de man om zich nog eens te verontschuldigen. Maar ditmaal vertelt de vader, ietwat beschaamd: ‘Ik heb mijn dochter gesproken. Er hebben zich in dit huis blijkbaar activiteiten afgespeeld waarvan ik me niet geheel bewust was. Zij verwacht in augustus een kind. Ik moet u mijn verontschuldigingen aanbieden.’

Het meisje was ontmaskerd doordat Target miljoenen stukjes klanteninformatie had gecombineerd: vooral de onlineverlanglijstjes en de winkelgewoonten van zwangere klanten. Daaruit bleek bijvoorbeeld dat zwangere vrouwen na ongeveer drie maanden geurloze zalf inslaan. Ook kopen ze in de eerste twintig weken calcium-, magnesium- en zinksupplementen. Kort voor de geboorte halen ze washandjes. Als je een anonieme vrouw vindt met dit kooppatroon, is ze dus waarschijnlijk zwanger. Het meisje was dus opgespoord door ‘big data’.

Geheim leven

Met ‘big data’ wordt de ongehoorde berg aan informatie bedoeld die continu wordt verzameld. Die data komen vooral van internet (van zoektermen, Facebookpagina’s en e-mails), en van sensoren die aan steeds meer fysieke voorwerpen worden vastgemaakt.

Big data zal de wereld veranderen, maar tot aan de spionagezaak rond de Amerikaanse National Security Agency en Edward Snowden kenden weinig mensen buiten de technologiesector het fenomeen. Nu draait het debat nog vooral om het probleem Big Brother, de controlestaat die door big data wordt geschapen. Dankzij Snowden weten we bijvoorbeeld dat de Amerikaanse regering miljoenen telefoontjes, e-mails en Facebookberichten van Amerikanen en buitenlanders opslaat. Big data gaat echter veel verder dan Big Brother. Het fenomeen zal allerlei werelden totaal veranderen: de gezondheidszorg, het bedrijfsleven, het openbare leven, zelfs onze manier van denken.

‘Als je iets verder kijkt, zie je dat big data al ongelooflijke dingen heeft gedaan’, zegt Nicole Boyer, futuroloog bij het adviesbureau Adaptive Edge in San Francisco. ‘Maar data zijn onzichtbaar, ze leiden een geheim leven. 98 procent van alle hoogopgeleiden weet nauwelijks wat er gaande is.’ Regeringsleiders hadden geen complot gesmeed om van big data Big Brother te maken; ze hadden er gewoon nog nauwelijks over nagedacht. Sinds Snowden moeten ook niet-technologen big data serieus nemen.

Terrorismebestrijding is misschien wel de minst nuttige toepassing van big data. Volgens Jytte Klausen, hoogleraar politieke wetenschappen aan de Brandeis University in de VS, heeft het kraken van data wel al enkele successen opgeleverd. ‘Bijvoorbeeld door het bekijken van transnationale communicatiepatronen. Chatter – de frequentie bijhouden van communicatie tussen een aantal bekende individuen – kan incidenten helpen voorspellen.’ Als een groep Jemenieten plotseling met Engeland gaat communiceren, en er vallen woorden als ‘actie’, kun je dat aan de Britse veiligheidsdiensten doorspelen. Via netwerkanalyse kun je ook de contactpersonen van de verdachten natrekken.

Zoek je een speld in een hooiberg, dan kan big data helpen die speld te vinden. Maar wat als je op zoek bent naar een speld, in dit geval de volgende islamitische terroristische aanslag, terwijl je eigenlijk een steentje had moeten vinden? Noorwegen had ook met big data niet kunnen anticiperen op de moordpartij van Anders Breivik, en Nederland niet op het neerschieten van Pim Fortuyn door de voorheen ongevaarlijke dierenactivist Volkert van der G. Er bestond geen precedent voor hun acties.

Een gevaar in de big data-wereld is dat we verdwalen in de oneindige hooiberg van informatie, omdat we geen idee hebben waar we naar moeten zoeken. Iets dergelijks gebeurde bij de aanval op Pearl Harbor in 1941 en bij de aanslagen van 11 september 2001, schrijven Milo Jones en Philippe Silberzahn, auteurs van Constructing Cassandra, Reframing Strategic Surprises at the CIA, 1947-2001. Vóór beide gebeurtenissen beschikte men over relevante data: de Japanners wisselden in de maanden voor Pearl Harbor verdachte berichten uit, en in de zomer van 2001 namen verdachte types les aan Amerikaanse vliegscholen. Maar omdat de aannames van de geheime diensten niet klopten – niemand had zulke aanslagen verwacht – zocht niemand naar de speld. Klausen: ‘Je hebt nog altijd menselijke intelligentie nodig. Het Amerikaanse rapport over 9/11 concludeerde: gebrek aan verbeeldingskracht. Je kunt big data alleen gebruiken als je het in een raamwerk kunt passen.’

Taartjes als camouflage

Zelfs als je weet wat je zoekt – een islamitische terrorist, bijvoorbeeld – kun je dat ook met big data nog steeds missen, zegt Klausen. De Tsjetsjeense terrorist Tamerlan Tsarnaev, een van de ‘Boston bombers’, zette in de maanden voor die aanslag terroristische video’s op YouTube. Eerder had hij verdachte telefoontjes gepleegd en verdachte sms’en verstuurd. Ook was hij een lange baard gaan dragen, bemoeide hij zich met de kleding van vrouwelijke familieleden en had hij in de plaatselijke moskee twee anti-Amerikaanse woede-uitbarstingen gehad. De moskee had hem gevraagd niet meer te komen. Bij de CIA stond hij in een database van 745.000 potentiële internationale terroristen. En toch verloren de autoriteiten in Boston hem uit het oog. Een blunder, maar wel begrijpelijk: big data kan aantonen wie jihadistische sites bezoekt, maar niet of een bezoeker een onschuldige tiener is, een wetenschapper of een toekomstige terrorist.

Bovendien weten jihadisten dat ze worden gevolgd. Klausen: ‘De extremisten waren early adopters, ze zaten bij de eerste YouTube-gebruikers. Nu zetten ze hun mobiele telefoon uit. Ze gaan in een grot zitten, of onder een boom – ook om drones te ontwijken.’ Of ze camoufleren zichzelf op het internet. Klausen vertelt over een vrouw in Canada die taartjesrecepten op haar Facebookpagina plaatste. Daardoor werd ze door de zoekmachines van de geheime dienst genegeerd – terwijl ze ook als jihadist actief was. ‘Zoiets kun je alleen met menselijke intelligentie oppikken’, zegt Klausen.

Controle door middel van big data zal geen eind maken aan het terrorisme, maar het zal wel onze privacy inperken. Elk telefoontje dat u pleegt, elke e-mail die u verstuurt, elke webpagina die u bezoekt, wordt waarschijnlijk ergens opgeslagen. Na de Snowden-onthullingen zeiden veel mensen: ‘Ik heb niets te verbergen.’ Maar Agatha Christie wist het al: iederéén heeft iets te verbergen. We hebben allemaal weleens een onvoorzichtig mailtje verstuurd, naar een accountant, een minnares of een vriend die later rare dingen heeft gedaan. Sommige mensen – schrik niet – bezoeken pornosites.

Op dit moment vindt niemand dat misschien interessant. Maar uw persoonlijke informatie kan ooit interessant worden voor concurrenten, afpersers of politieke tegenstanders. Wie zegt dat de overheid of een bedrijf als Google voorzichtig genoeg is om u te beschermen?

Ook als u zelf denkt oninteressant te zijn voor Big Brother, kan die toch in uw privéleven gaan wroeten, omdat u dubieuze vrienden hebt. De Amerikaanse inlichtingendienst NSA onthulde in juli dat de dienst niet alleen verdachte terroristen volgt, maar ook mensen die op twee of drie connecties van die verdachten zitten: dus ook de vriend van een vriend van een contactpersoon van een verdachte terrorist. En na de jihadisten komt er wel een andere groep aan de beurt. In Washington hebben zo’n vier miljoen mensen officieel toestemming om vertrouwelijke informatie te lezen, onder wie 500.000 werknemers van particuliere bedrijven, schrijft The Washington Post. Deze mensen zullen zichzelf echt niet overbodig gaan maken. Ze vinden wel weer een nieuwe verdachte groepering.

‘Privacy is achterhaald’

Angela Merkel (wier eigen telefoon mogelijkerwijs wordt afgeluisterd door de Amerikanen) wil nu een Europese wet op dataprivacy. Die zal er vast komen. Onze maatschappij heeft nieuwe instanties nodig als bescherming tegen een nieuw fenomeen. Alleen: die bescherming zal misschien niet sterk zijn. Zodra een maatschappij gaat kiezen tussen ‘veiligheid’ en ‘vrijheid’, voel je al waar de keus op zal vallen. Amerikaanse kiezers waren weliswaar gechoqueerd door het NSA-schandaal, maar dat was vooral omdat de ogenschijnlijke liberaal Barack Obama het spioneren in het geheim toeliet. De spionage op zich vinden Amerikanen minder bezwaarlijk. In een peiling van het Amerikaanse Pew Research Center in juni vond 56 procent van de ondervraagden het bijhouden van telefoongegevens door de NSA acceptabel.

De consument keert zich ook niet af van bedrijven als Google en Facebook die gebruikersinformatie doorspelen aan de overheid. Futuroloog Boyer: ‘Ik schrik als ik zie hoe makkelijk mensen hun privacy inleveren voor meer gemak. Waarschijnlijk is het begrip “privacy” achterhaald.’ Michael Ross van eCommera, een Londens consultancybureau voor webwinkels, zegt over het NSA-schandaal: ‘Ik denk niet dat het de consument veel zal uitmaken. Ga je je iPhone weggooien? Ik vermoed dat de voordelen zwaarder wegen dan eventuele nadelen.’

Bedrijven zien vooral voordelen. Er wordt vaak gezegd: data zijn de olie van nu. Boyer: ‘Bij de oprichting van Facebook is het nooit hardop gezegd, maar het doel was het verkrijgen van persoonlijke gegevens.’ Het bedrijf kent inmiddels de vriendschappen en bezigheden van meer dan een miljard mensen. Ook de waarde van Amazon en Google zit vooral in de informatie die ze bezitten. Talloze bedrijven willen data verzamelen en uitbuiten, met Amazon als lichtend voorbeeld, zegt Ross. Amazon kent dankzij zijn algoritmen uw boekensmaak nog beter dan uzelf. Dat is waardevol – en eng.

Hartaanval via e-mail

Maar misschien wordt Big Brother wel een ondergeschikt effect van big data. Wat we eerder zullen merken: big data zal het leven efficiënter maken. De eerste effecten zijn al zichtbaar, en helder uiteengezet in het boek Big Data van Viktor Mayer-Schönberger en Kenneth Cukier. Gps is al zo ver ontwikkeld dat steeds minder mensen TomTom-navigatiekastjes kopen; dezelfde route-informatie staat immers gratis op je telefoon. Als je een tekst in het Baskisch of het Bulgaars wilt vertalen, doet Google het binnen een paar seconden. En als een regering wil weten of en waar een griepepidemie is uitgebroken, dan is de beste methode ‘Google Flu Trends’, een programma dat talloze zoektermen kraakt (‘flu medicines’, bijvoorbeeld) en veel sneller is dan het officiële Amerikaanse Center for Disease Control.

Big data kan ons ook gezonder maken. In 2009 verkreeg Apple een patent om via zijn studio-oordopjes gegevens te verzamelen over zuurstofgehalte van het bloed, hartslag en lichaamstemperatuur. Er komt een tijd dat mensen rondlopen met sensoren die bijvoorbeeld hun cholesterolgehalte en bloeddruk meten. Die gegevens worden dan doorgegeven aan een databank met gegevens van miljoenen patiënten, en dan krijg je een e-mail die zegt: ‘Gezien uw leeftijd, geslacht en cholesterolgehalte hebt u in de komende 24 uur 11 procent kans op een hartaanval. Ga onmiddellijk naar het ziekenhuis.’

Het verzamelen en opslaan van informatie wordt trouwens steeds goedkoper. Mayer-Schönberger en Cukier geven een mooi voorbeeld. De wetenschappers die in 2003 voor het eerst de code van het menselijk genoom ontrafelden, hadden tien jaar nodig gehad om de drie miljard basenparen op te helderen. Nu kan één laboratorium dezelfde hoeveelheid DNA in één dag analyseren. Dat biedt mogelijkheden. Toen Apple-baas Steve Jobs alvleesklierkanker kreeg, liet hij zijn hele DNA én dat van zijn tumor in kaart brengen. Indertijd kostte dat nog ver boven de 100.000 dollar, maar zo konden zijn artsen precies inschatten welke behandeling het best zou werken. Telkens als de tumor muteerde, zochten ze een andere therapie. Slechts 4 procent van de mensen met alvleesklierkanker leeft vijf jaar na de diagnose nog, Jobs hield het zeven jaar vol. De strategie die hij koos, wordt steeds goedkoper. Big data zal ook de gewone patiënt helpen.

Kafkaëske scenario’s

Ook criminologen zijn in de ban van big data. In de film Minority Report (2002) van Steven Spielberg arresteert de politie een man voor een toekomstige moord. Misdaden zijn in de film namelijk te voorzien. Daar zijn we nu al bijna. Onze mobiele telefoon verraadt onze locatie. Big data kan straks live aantonen: ‘Jan, die al twee keer vanwege een dronken caféruzie in aanraking is gekomen met justitie, loopt zondagochtend om 01.03 uur over het marktplein. Piet en Wim, die ook iets op hun kerfstok hebben, bevinden zich binnen twintig meter van hem. Ingrijpen!’ Dan kan Jan worden opgepakt, nog voordat hij zelf wist dat hij iets ging doen. Een kafkaëske nachtmerrie voor de persoonlijke vrijheid, schrijven Mayer-Schönberger en Cukier. Het vervangt misschien het ‘racial profiling’ waar president Obama over klaagde naar aanleiding van de gewelddadige dood van de zwarte tiener Trayvon Martin. Nu volgt de winkeldetective elke ‘jonge zwarte man’ door de zaak. Straks volgt hij de ‘klant met verdachte big data-patronen’.

Zover zijn we nog niet. De meeste computerprogramma’s kunnen de enorme hoeveelheden data nog helemaal niet aan. Bovendien is er gebrek aan menselijk computertalent. Maar uiteindelijk zal big data alles veranderen. Waar dat toe zal leiden, weet zelfs Google nog niet, laat staan Big Brother.

Viktor Mayer-Schönberger en Kenneth Cukier, Big Data, Hodder and Stoughton Ltd.

DOOR SIMON KUPER, FOTO’S CONNIE ZHOU

In Washington hebben 4 miljoen mensen officieel toestemming om vertrouwelijke informatie te lezen.

Iederéén heeft iets te verbergen. Een mail naar een accountant of een bezoek aan een pornosite maakt u chanteerbaar.

Reageren op dit artikel kan u door een e-mail te sturen naar lezersbrieven@knack.be. Uw reactie wordt dan mogelijk meegenomen in het volgende nummer.

Partner Content