Econometriste Sanne Blauw: ‘Algoritmes zijn níét neutraal. Ik wil niet dat ze alles overnemen’

Sanne Blauw: 'Ik hoef maar een krant open te slaan, en ik zie voorbeelden van peilingen die niet representatief zijn.' © Joris Casaer

Waarom spreken onderzoeken over alcoholgebruik elkaar vaak tegen? Welke cijfers mogen we vertrouwen, en welke verdienen onze scepsis? De Nederlandse econometriste Sanne Blauw behandelt zulke kwesties in een soms vermakelijk, maar ook verontrustend boek.

‘Ik geloof alleen de statistieken die ik zelf heb vervalst.’ Het citaat, toegeschreven aan onder meer Winston Churchill, had ook perfect kunnen dienen als motto voor Het best verkochte boek (met deze titel) van de jonge Nederlandse econometriste Sanne Blauw. In dat boek laat Blauw mooi zien wat er allemaal kan misgaan met het gebruik van cijfers en statistieken, zowel in de media als aan de universiteiten. In sommige door Blauw beschreven gevallen gaat het om moedwillige manipulatie, in andere om onbedoelde fouten in de methodiek. Ondanks (of is het net dankzij?) die soms flagrante fouten kregen of krijgen zulke cijfers en statistieken vaak bijzonder veel publieke aandacht.

Het is absurd te denken dat het bbp veel vertelt over de welvaart. Het is een politieke keuze om alleen daarnaar te kijken.

Als voorbeeld noemt ze Sexual Behavior in the Human Male, de geruchtmakende bestseller van bioloog Alfred Kinsey uit 1948. Dat onderzoek is tot vandaag bepalend voor hoe we over ons seksleven denken, maar bulkt van de methodologische fouten. Kinsey interviewde voor zijn boek ook vrouwen. Maar waren zij wel een representatieve groep? Twijfelachtig, aldus Blauw: gezien de gevoeligheid van het onderwerp was de kans op weigeraars nogal groot. Bovendien werd een vrouw die zich bij het kantoor van Kinsey aanmeldde weleens in de gaten gehouden door jongemannen. ‘Als ze dan langer dan een uur binnen bleef, dan wisten ze: die is geen maagd meer. Want alleen bij sekservaring werden vervolgvragen gesteld. Dan is het niet vreemd dat studentes niet altijd zin hadden om aan Kinseys onderzoek mee te werken.’

Blauw schrijft als journaliste voor De Correspondent, en houdt op die Nederlandse nieuwssite net als in haar boek een pleidooi om te ontcijferen. Cijfers zijn belangrijk geworden in onze wereld. ‘Te belangrijk’, vindt ze. Bovendien komen er alleen maar meer bij. Iedereen die de aandacht wil trekken van journalisten, weet dat die makkelijk te verleiden zijn met een – het liefst niet eerder gepubliceerd – cijfer. Maar de berekeningen die gemaakt worden om tot zo’n cijfer te komen zijn vaak van bedenkelijke kwaliteit.

Sanne Blauw: Ik heb eigenlijk een heel eenvoudige baan. Ik hoef maar een krant open te slaan, en ik zie voorbeelden van peilingen die niet representatief zijn, of gezondheidsonderzoekjes waarbij oorzaak en gevolg door elkaar worden gehaald. Of een verband blijkt gewoon toeval. Dat is de reden waarom de krant de ene dag kan schrijven dat je minder wijn moeten drinken, waarna ze je een dag later aanspoort om net meer wijn te drinken. De Amerikaanse journalist Darrel Huff was heel goed in het ontmaskeren van verkeerde statistieken. Hij schreef daar in 1954 een geweldig boek over: How to Lie with Statistics. Huff begreep het spelletje zo goed dat de tabaksindustrie hem uiteindelijk heeft ingehuurd. In elke gezondheidsstudie waar roken slecht uitkwam, kon hij ook altijd wel een foutje vinden waardoor hij weer twijfel kon zaaien. Dat was voor hem kinderspel.

‘Een oorzakelijk verband afbranden is gemakkelijk, het bewijzen is heel lastig’, schrijft u erover.

Blauw: Ja, maar dat betekent niet dat wetenschappers nooit een conclusie kunnen trekken waar de overheid beter naar kan luisteren. Het gaat erom genoeg verschillende onderzoeken te hebben die hetzelfde probleem vanuit een andere hoek bekijken, of dezelfde experimenten meermaals herhalen. Het is als een tafel met heel veel poten: die blijft ook staan wanneer er één poot wordt afgezaagd. Het is niet omdat Huff één foutje kon aanwijzen dat ál het onderzoek naar de schadelijke effecten van longkanker ongeldig wordt. Het kan altijd dat wetenschappers nieuwe ontdekkingen doen, maar de wetenschappelijke consensus moet robuust genoeg zijn om niet bij de minste tegenwind onderuit te gaan.

HOE ONTKEN JE DE OPWARMING VAN DE AARDE? De (echte gebruikte) grafiek bovenaan toont de evolutie van de jaartemperatuur van 1880 tot 2015. Een flatliner, zo lijkt het. Alleen is de linkeras gemanipuleerd. Als de afstand tussen de cijfers groter was geweest, waren significante verschillen wél duidelijk. Ter vergelijking maakte Blauw een grafiek van haar leeftijd. Sinds 1985 werd ze blijkbaar niet ouder... omdat de schaal links in stappen van 1000 jaar omhoog gaat.
HOE ONTKEN JE DE OPWARMING VAN DE AARDE? De (echte gebruikte) grafiek bovenaan toont de evolutie van de jaartemperatuur van 1880 tot 2015. Een flatliner, zo lijkt het. Alleen is de linkeras gemanipuleerd. Als de afstand tussen de cijfers groter was geweest, waren significante verschillen wél duidelijk. Ter vergelijking maakte Blauw een grafiek van haar leeftijd. Sinds 1985 werd ze blijkbaar niet ouder… omdat de schaal links in stappen van 1000 jaar omhoog gaat.

De Vlaamse arts Luc Bonneux vertelde in Knack dat het wetenschappelijke bewijs voor een verband tussen fijnstof en gezondheid erg dun is. Mensen die ongezond leven wonen meestal in wijken waar veel fijnstof is, waardoor nog niet duidelijk is wat oorzaak en wat gevolg is. Wanneer weet een overheid dan genoeg om actie te ondernemen?

Blauw:Dat is een kwestie van consensus. Neem klimaatverandering. Het is moeilijk om dat definitief aan te tonen: we hebben geen tweede planeet die we kunnen gebruiken om enkele experimenten op uit te voeren en te onderzoeken wat er nu werkelijk aan de hand is. En toch zijn er allerlei soorten onderzoeken die samen hard maken dat de aarde opwarmt. Uiteindelijk blijft het een subjectieve afweging. Is er sprake van een wetenschappelijke consensus als 90 procent van de wetenschappers het eens zijn, of 95 procent, of is zelfs dat niet genoeg? Mijn boodschap is: we moeten cijfers in twijfel trekken, maar oppassen dat we niet eeuwig blijven twijfelen en geen actie ondernemen.

Over de klimaatverandering blijven sommigen zeggen dat de consensus onder wetenschappers – zeker over de oorzaken van de opwarming – twijfelachtig is.

Blauw: Ik geloof dat er heel integere sceptici zijn die oprecht hun twijfels hebben bij de consensus die er vandaag is. Daar heb ik respect voor. Maar er zijn ook klimaatontkenners die gefinancierd worden door bedrijven, of die er politiek belang bij hebben. Door veel met cijfers en statistieken bezig te zijn, ben ik me meer en meer gaan ergeren aan mensen die ze misbruiken om hun gelijk te halen.

Het blijft voor sommigen aantrekkelijk en spannend om de consensus over de opwarming van de aarde in twijfel te trekken. Twijfelt u er zelf soms nog aan?

Blauw: Ik ben geen klimaatwetenschapper, en het zou me een heel leven kosten om me daar echt goed in in te lezen. Ik hoorde onlangs een podcast van een professor die aan een klas studenten had gevraagd wie er gelooft dat de zon om de aarde draait. Het antwoord: niemand. Wie geloofde dat de aarde om de zon draait? Alle studenten staken hun hand op. Maar wie kon ook uitleggen waarom dat zo was? Hoewel het om studenten natuurkunde ging, bleek niemand dat te kunnen. Ik kan dat ook niet, net zoals ik niet precies kan zeggen hoe mijn auto werkt. Het draait dus om vertrouwen. Ik vertrouw ook de klimaatwetenschappers dat ze hun werk goed doen. Ik heb een collega bij De Correspondent die al jaren met klimaat bezig is, en ik vertrouw erop dat zijn artikels correct zijn. Hetzelfde geldt voor vaccinaties: we kunnen dat niet allemaal zelf uitzoeken. We vertrouwen erop dat wetenschappers ons voorschrijven wat het beste voor ons is. Om de waarheid te kennen en te weten wat goed is voor ons, moeten we op zoek naar een balans tussen scepsis en vertrouwen.

Yale-professor Dan Kahan toonde aan dat mensen geneigd zijn cijfers en statistieken opzij te schuiven als ze niet bij hun identiteit of ideologie passen.

Blauw: Dat is zo. Er zijn Republikeinse boeren die blijven zeggen dat de opwarming van de aarde een leugen is, terwijl ze hun boerderij wel al voorbereiden op klimaatveranderingen. Wij negeren de data die ons slecht uitkomen, en focussen op cijfers die ons gelijk geven. Soms zelfs onbewust.

De miljonairs van Silicon Valley houden hun kinderen weg van schermen. Welke onderzoeken willen zij stilhouden?

Hoe intelligenter mensen zijn, hoe beter ze worden in het subjectief interpreteren van gegevens. Je ziet dat ook bij complotdenkers: die zijn vaak absoluut niet dom.

Blauw: Inderdaad. Ik betrap mezelf ook weleens op die neiging. Zelfs als ik zou geloven dat de opwarming van de aarde een fabeltje is, zou ik er waarschijnlijk over zwijgen, want dan zou ik al mijn vrienden verliezen. Voor alle duidelijkheid: ik geloof oprecht dat de aarde opwarmt. (lacht)

Nog een these van Kahan: nieuwsgierige mensen zijn eerlijker met statistieken dan mensen die ideologisch gedreven zijn.

Blauw: Zijn onderzoek staat nog maar in de kinderschoenen, maar ik denk dat het klopt. In Superforecasters, een boek van Philip Tetlock en Dan Gardner, worden mensen gevolgd die heel veel voorspellingen doen. Wie doet dat het best? Mensen die niet dogmatisch denken, en alles geval per geval durven te bekijken. Ze hebben een goed oog voor de verschillen, in plaats van alle gebeurtenissen door dezelfde bril te bekijken. Daar is nieuwsgierigheid voor nodig, en ook een kritische blik.

De tabaksindustrie zaaide lange tijd twijfel over de gevolgen van roken. Ziet u momenteel iets waarvan u denkt: over twintig jaar begrijpen we niet dat we dat zo lang zijn blijven doen?

Blauw: Het is natuurlijk gissen, maar ik zou toch naar de technologiewereld kijken. De miljonairs van Silicon Valley nemen nanny’s in huis om hun kinderen weg te houden van alle schermen. Ze sturen hun kinderen zelfs naar scholen waar zo weinig mogelijk met technologie wordt gewerkt. Het zou me niet verbazen dat er onderzoek bestaat dat zij liever niet gepubliceerd zien. Het ís ook bizar. Laatst hoorde ik een interessante vergelijking. Als een man meteen nadat hij is opgestaan naar een biertje grijpt, denkt iedereen dat het een alcoholicus is. Maar het eerste waar wij ’s ochtends allemaal naar grijpen, is onze smartphone. Misschien zijn we ook wel allemaal verslaafd.

Sanne Blauw, Het best verkochte boek (met deze titel), uitgeverij De Correspondent, 208 blz., 18 euro
Sanne Blauw, Het best verkochte boek (met deze titel), uitgeverij De Correspondent, 208 blz., 18 euro

Cijfers stellen mensen in staat om zonder veel over een onderwerp te weten toch te kunnen meepraten en een oordeel te vellen. Niemand hoeft veel van economie te kennen om op basis van het bbp van een land het beleid van de regering te beoordelen. Handig, niet?

Blauw: Ze maken dan vaak al meteen een fout tegen correlatie en causaliteit, want is het wel dankzij het regeringsbeleid dat de economie groeit. (lachje) Kijk, we hebben het bruto binnenlands product (bbp) nog geen honderd jaar geleden bedacht, en op zich is daar niets mis mee. Maar laten we niet vergeten dát we het ooit hebben bedacht. Anders wordt het een gevangenis. Het is absurd te denken dat het bbp ons veel over de welvaart van een land vertelt. Ook vervuiling en criminaliteit doen het bbp stijgen, en mantelzorg en vrijwilligerswerk worden er niet in opgenomen. Het is dus een politieke keuze om enkel naar het bbp te kijken. Die discussie wordt intussen ook wel gevoerd. Onderzoekers zoeken nieuwe indicatoren om duurzaamheid, het welzijn van volgende generaties of geluk mee te nemen in hun statistieken. Het bbp is maar een klein stukje informatie.

Schaffen we zo’n cijfer dat het uitzicht op de werkelijkheid beneemt beter af?

Blauw: Dat hoeft voor mij niet. Het zegt wel iets over hoeveel de economie – die beperkte definitie in acht genomen – het voorbije jaar is gegroeid. Maar bekijk het niet zonder context.

Een ander voorbeeld zijn politieke peilingen: ook die creëren een eigen werkelijkheid.

Blauw: Dat is zo, maar het is onmogelijk om ze af te schaffen. In Italië mogen er twee weken voor de verkiezingen geen peilingen worden gehouden. Toen er laatst een referendum over de grondwet werd gehouden, verschenen er op blogs verslagen van een zogenaamde verkiezing tussen Sint-Norbert en Sint-Simplicius, overduidelijk een verwijzing naar ‘no’ en ‘si’. Zo worden de peilingen dan vermomd. Mensen moeten gewoon weten dat ze peilingen niet al te ernstig moeten nemen. Als een partij één zetel wint in een peiling zegt dat waarschijnlijk helemaal niets, want de foutenmarge is meestal groter. Eén peiling zegt op zich ook al niet zoveel, je hebt er meerdere nodig om echte conclusies te kunnen trekken. Maar om ze daarom ook maar meteen af te schaffen? Er wordt tijdens verkiezingscampagnes al zoveel gebabbeld door zogezegde experts, waarom zou je dan heel selectief de peilingen afschaffen? Bovendien doen partijen ook hun éígen peilingen, dus het zou oneerlijk zijn als zij die informatie wel zouden hebben en het publiek niet.

'We negeren cijfers die ons slecht uitkomen, en focussen erop als ze ons gelijk geven.'
‘We negeren cijfers die ons slecht uitkomen, en focussen erop als ze ons gelijk geven.’© Joris Casaer

Tijdens verkiezingscampagnes in Nederland worden de programma’s van politieke partijen nagerekend door het Centraal Planbureau. In Vlaanderen wordt overwogen om dat in te voeren. Een aanrader?

Blauw: Zulke berekeningen worden een doel op zich voor politieke partijen. Jesse Klaver, politiek leider van GroenLinks, vertelt in zijn boek De mythe van het economisme dat zijn voorganger hem uitlegde hoe je die berekeningen kunt beïnvloeden en bijstellen. Door de bedragen in haar verkiezingsprogramma soms maar een beetje aan te passen, kan een partij al veel beter scoren. Een ander voorbeeld: op basis van de begrotingscijfers berekent men in Nederland elk jaar hoezeer de koopkracht het komende jaar zal stijgen. Ook om dat cijfer te beïnvloeden, neemt de regering soms maatregelen die verder volstrekt nutteloos zijn.

‘Een Aziaat zal wellicht een hoger IQ hebben dan een zwarte, en een zwarte zal bepaalde fysieke vaardigheden hebben die superieur zijn aan die van de blanken’, zei Filip Dewinter (Vlaams Belang) even geleden. Ook aan het IQ besteedt u in uw boek veel aandacht. De naakte cijfers geven Dewinter gelijk.

Blauw: Uit Amerikaanse studies blijkt vaak dat witte Amerikanen gemiddeld beter scoren dan zwarte Amerikanen. Maar wat zeggen die cijfers echt? Die curven waarin de groepen worden verdeeld, lopen nog altijd grotendeels gelijk, en zelfs bij de verschillen moeten we grote kanttekeningen maken. Er is geen oorzakelijk verband tussen intelligentie en huidskleur. Er is wel een correlatie: zwarte Amerikanen scoren slechter doordat ze andere leefomstandigheden hebben, bijvoorbeeld vaak slechter onderwijs genieten en in armere gezinnen opgroeien. Dat speelt allemaal een rol.

Wat meet het IQ precies?

Blauw: Volgens psychologen is een IQ deels erfelijk bepaald, en daarnaast speelt de omgeving een rol. Mensen kunnen studeren voor een IQ-test. Er staan niets voor niets rijen boeken in de bibliotheken met titels als Hoe verhoog ik mijn IQ? Het IQ meet ook een heel abstracte vorm van intelligentie. Het gaat er dus niet om – ik neem wat voorbeelden uit de omgeving waar we zitten – of je een tafel in elkaar kunt timmeren, thee kunt zetten of goed kunt opdienen in een koffiebar. Een softwareontwikkelaar getuigde daar eens over op het internet. In uitstekende volzinnen schreef hij dat was gebleken dat hij een laag IQ had, hij moest dus wel dom zijn. Het is kwalijk om te merken dat één cijfer zo’n invloed kan hebben, terwijl die man duidelijk best intelligent was. Zonde dat hij niet vertrouwde op zijn hele leven aan ervaring, maar op dat ene cijfer dat hem vertelde dat hij niet intelligent zou zijn.

Moeten IQ-tests dan maar worden afgeschaft?

Blauw: Psychologen die het IQ van een kind meten, praten daarnaast ook altijd met de ouders en kijken naar andere factoren. In de juiste context zegt zo’n cijfer nog wel iets. In Frankrijk zijn ze ooit begonnen met het IQ van kinderen te meten om te zien welke leerlingen meer hulp nodig hadden. Dat vind ik een goed doel. Om ongeveer dezelfde reden nemen scholen van alle kinderen in Nederland een gestandaardiseerde test af: de CITO-toets. Alleen kunnen rijkere ouders het zich permitteren om hun kinderen extra lessen te geven voor die toets. Zo wordt het resultaat ook weer vertekend.

Sanne Blauw

1986geboren in Middelburg, Nederland

2006-2010studie econometrie (Erasmus Universiteit Rotterdam)

2014 promoveert met een onderzoek naar geluk, inkomensongelijkheid en vertrouwen (Erasmus School of Economics)

2015-vandaag schrijft als journaliste bij de Nederlandse site De Correspondent over data, statistiek en geluk

Zo ongeveer iedereen voorspelt vandaag dat big data en algoritmes voor een nieuwe revolutie zullen zorgen in de manier waarop we informatie zoeken en vinden. U bent sceptisch.

Blauw: We zullen altijd dezelfde fouten blijven maken tegen de statistiek die we al eeuwenlang maken. Wat dat betreft, zal er dus helemaal niets veranderen. Ik erger me er ook aan dat algoritmes worden voorgesteld als neutrale manieren om informatie te verwerken. Dat is helemaal niet zo. Het algoritme dat YouTube gebruikt om video’s aan te raden, wil alleen maar dat mensen zo lang mogelijk blijven kijken en zo veel mogelijk advertenties zien. Het streeft niet na dat wij een gebalanceerd beeld van de werkelijkheid krijgen. Het algoritme dat banken soms al gebruiken om kredieten te verlenen, is niet bezig met vraagstukken over rechtvaardigheid. Een bank wil zeker zijn dat mensen hun lening kunnen terugbetalen, en kijkt daarom ook naar de groepen waartoe ze behoren. Dat is nochtans niets waar ze zelf iets aan kunnen doen. In de feiten krijgen zwarte mensen dus soms minder makkelijk een lening, énkel omdat ze zwart zijn.

Moet een bank niet enkel en alleen bezig zijn met de terugbetaling van de leningen die ze heeft toegekend? In die beoordelingen zit een grond van waarheid.

Blauw: Vroeger kregen bankbedienden opmerkingen omdat ze vooroordelen hadden over sommige klanten. Een algoritme zou veel neutraler en objectiever zijn. Nou, niet als je algoritmes gebruikt om mensen te beoordelen aan de hand van de groep waartoe ze behoren. Dat geeft dezelfde problemen en oneerlijke uitkomsten als mensenwerk.

De meeste mensen zouden maar wat blij zijn als algoritmes ervoor kunnen zorgen dat agenten weten waar criminele feiten zullen worden gepleegd.

Blauw: Tot je in een wijk woont waar de politie dankzij zo’n algoritme twintig keer per dag patrouilleert. VVD-fractieleider Klaas Dijkhoff pleitte ervoor om inwoners van probleemwijken strenger te straffen. Wat voor effect denkt hij dat dit zal hebben op de sfeer in zo’n wijk? Ook hier is het maar de vraag wat oorzaak en gevolg is. Als bepaalde bevolkingsgroepen vaker voorkomen in criminaliteitsstatistieken zal de politie die mensen er vaker uitpikken. Maar alleen daardoor komen ze dus al vaker terug in de statistieken. Dat kan echt uit de hand lopen.

Ook dat zijn politieke keuzes die niet aan algoritmes moeten worden overgelaten. Is veiligheid de belangrijkste prioriteit, en willen we daarvoor gerust af en toe onschuldige mensen opsluiten die het algoritme aangaf als verdacht? Of laten we liever af en toe iemand lopen, zodat er zo weinig mogelijk onschuldigen in de gevangenis zitten? Dat zijn belangrijke keuzes. Ik wil dus niet dat algoritmes alles overnemen. Ze worden nu zelfs al gebruikt om werknemers te beoordelen. Dan krijg je individuele beoordelingen op basis van de deelgroepen waartoe je behoort. Dat is gewoon discriminerend.

Is het niet met big data zoals met andere cijfers: er zijn gewoon dingen die we liever niet weten? Onze hoofdredacteur probeert ons ook wat weg te houden van de leescijfers van Knack.be. Als we ons daardoor lieten leiden, zouden we ook alleen nog over seks en de islam schrijven.

Blauw: Bij De Correspondent krijgen we de leescijfers ook enkel te zien als we ernaar vragen, maar dan ga ik toch altijd kijken hoe mijn stukken het op Twitter doen, en hoe vaak ze gedeeld worden. Als we daar bij De Correspondent echt naar zouden luisteren, schreven journalisten ook nooit meer over het buitenland, want die artikelen worden minder goed gelezen dan die over bijvoorbeeld de zorg in Nederland. Dat zou echt heel onverstandig zijn. Sommige cijfers kunnen we dus beter helemaal achter houden. Dat is ook de reden waarom ik nooit een stappenteller gebruik, en nog maar heel zelden op de weegschaal ga staan. (lacht)

Partner Content