Geert Loosveldt
‘Politieke peilingen: welke fouten worden er gemaakt (en zijn die te voorkomen)?
In de aanloop naar de verkiezingen staat Geert Loosveldt (KU Leuven) stil bij de voorspellende waarde van politieke peilingen.
Het is een bekend format van een TV kookprogramma, een amateur kok laat weten dat het bakken van een taart of het klaarmaken van een (speciaal) gerecht is mislukt en vraagt de hulp van een chef kok. De chef komt thuis langs en het bak- of kookproces wordt met de amateur kok stap voor stap overgedaan en er wordt nagegaan wat er bij de eerste poging was misgelopen. Het programma sluit af met de vraag: ‘Wat hebben we geleerd vandaag’.
Bedoeld wordt: ‘Welke fouten werden er initieel gemaakt en hoe kunnen we ze voorkomen?’. Een zelfde proces met de gelijkaardige afsluitende vraag kan gesteld worden wanneer blijkt dat politieke peilingen er niet in slagen om de resultaten van de verkiezingen bij benadering correct te voorspellen. Net zoals bij een mislukt gebak of gerecht kan men de wijze waarop de peiling werd uitgevoerd reconstrueren en bij elke stap nagegaan wat er mogelijks is misgelopen.
Een dergelijke oefening gebeurde in het Verenigd Koninkrijk (VK) naar aanleiding van de foute peilingen voor de parlementsverkiezingen in 2015. Ook de peilingen naar aanleiding van de presidentsverkiezingen in de Verenigde Staten (VS) van 2016 en 2020 zijn uitgebreid geëvalueerd en leren ons heel wat over de voorspellende waarde van politieke peilingen.
We kunnen ons dan ook de vraag stellen of we op basis van wat we geleerd hebben nu reeds een uitspraak kunnen doen over de juistheid van de in de media gepubliceerde peilingen naar aanleiding van de verkiezingen in juni 2024.
Zijn de resultaten van de peilingen wel fout?
Net zoals bij een gebak of gerecht kunnen we ons bij peilingen de vraag stellen of de verwachtingen wel juist waren. Bij peilingen gaat het voornamelijk om de verwachting hoe precies peilingen de verkiezingsuitslag kunnen voorspellen. De vraag die daarbij aansluit is wanneer concluderen we dat de peilingen fout waren. Na de verkiezingen is er in ieder geval niet altijd eensgezindheid bij het beantwoorden van de vraag of de peilingen de verkiezingsresultaten correct hebben voorspeld.
Dit was bijvoorbeeld het geval bij de beoordeling van de peilingen voor de presidentsverkiezingen in 2016 in de VS. Op basis van de peilingen werd in 2016 verwacht dat Hillary Clinton de verkiezingen zou winnen. Sommige onderzoeksinstituten met een goede reputatie hadden de kans dat Clinton zou winnen op ongeveer 90 % geschat. Uiteindelijk won Donald Trump in 2016 de presidentsverkiezingen. Dit resulteerde in een algemene perceptie dat de peilingen gefaald hadden.
Velen riepen 2016 dan ook uit als een van de slechtste jaren ooit voor peilingen. Een grondigere analyse van de verkiezings- en peilingsresultaten van 2016 leerde echter dat Clinton wel, zoals voorspeld, de meeste stemmen haalde over het gehele land (popular vote ) maar dat in een aantal strijdstaten (battlegroud-states) Trump een zeer nipte en op basis van de peilingen niet te voorspellen overwinning boekte waardoor Trump in een aantal staten meer afgevaardigden won dan verwacht en de stemming in het kiescollege won.
Bij de presidentsverkiezingen in de VS van 2020 voorspelden de peilingen dat Biden de verkiezingen zou winnen. De steun voor Biden werd echter overschat en het verschil tussen Biden en Trump bij de stemming in het kiescollege was echter veel kleiner dan op basis van de peilingen voorspeld werd. In feite waren de fouten in de peilingen voor de verkiezingen in 2020 groter dan in 2016. Toch was de evaluatie van de peilingen in 2016 een stuk negatiever omdat de verkeerde winnaar werd voorspeld.
Bij de evaluatie van de resultaten van de peilingen voorafgaand aan de parlementsverkiezingen in het VK van 2015 was er een grote unanimiteit: de peilingen waren grandioos de mist ingegaan. Bij de verkiezingsuitslag was er een verschil tussen de Conservative Party en Labour van 6.5 procentpunten. Peilingen, georganiseerd door 12 verschillende peilingsinstituten voorspelden onafhankelijk van elkaar een nek-aan-nek race. Het feit dat verschillende peilingbureau’s het zelfde resultaat voorspelden werd beschouwd als een sterke indicatie van de betrouwbaarheid van de voorspellingen. De (media) sponsors van deze peilingen waren echter misnoegd over de kwaliteit van de peilingen die ze hadden laten uitvoeren en door sommigen werd zelfs geopperd om minder aandacht te besteden aan peilingen in de politieke berichtgeving.
Over de beoordeling van de peilingsresultaten in het VK was er dus weinig discussie, dit was niet het geval voor de peilingen naar aanleidingen van de 2 presidentsverkiezingen in de VS. De enige werkwijze om de vraag te beantwoorden of de peilingsresultaten correct zijn bestaat erin om te berekenen of het verschil met de resultaten en de verkiezingsuitslag groter is dan op basis van de berekenbare precisie van de peilingen verwacht kan worden. Dit kan onder andere door middel van statistische procedures zoals betrouwbaarheidsintervallen en significantie testen. Daarbij moet wel opgemerkt worden dat bij de toepassing van die procedures verondersteld wordt dat er gewerkt wordt met steekproeven waarbij de selectie van de personen gebeurde op basis van het toeval.
Waarom zij de peilingen fout?
Wanneer het resultaat van een kook- of bakproces niet overeenstemt met wat het had moeten zijn dan kan men nagaan wat er is misgelopen tijdens het bereidingsproces. Ook wanneer uit de objectieve evaluatie van de resultaten van peilingen blijkt dat ze effectief fout waren dan kan men nagaan welke factoren hebben bijgedragen tot het verschil tussen de peilingsresultaten en de verkiezingsuitslag. Belangrijke aandachtspunten daarbij zijn: veranderingen in kiesintentie die nog gebeuren juist voor de verkiezingen, de late beslissers, de ‘verlegen’ kiezer en de representativiteit van de steekproef die bij de peilingen werd gebruikt.
Late beslissers en veranderingen in kiesintentie net voor de verkiezingen
De meest voor de hand liggende verklaring voor foute peilingen is een verschil tussen de antwoorden op de vraag naar kiesintentie en het feitelijke stemgedrag. Het registeren van een intentie impliceert niet noodzakelijk dat het gedrag zal optreden. Een peiling is m.a.w. geen stemming maar toch worden peilingen naar kiesintenties beschouwd als een voorafspiegeling van de verkiezingsuitslag. Een eerste verklaring om het verschil tussen kiesintentie en stemgedrag te duiden is dat sommige die hebben deelgenomen aan de peiling hun intentie om voor een bepaalde partij te stemmen nadien nog hebben veranderd (swing vote). Dit kan soms het gevolg zijn van een belangrijke campagne gerelateerd gebeurtenis kort voor de verkiezingsdag (bv. opvallende uitspraak van een kandidaat).
Dit sluit ook aan bij de opvatting dat sommige kiezers vrij lang onbeslist blijven en wachten tot het laatste moment om te beslissen voor welke partij ze zullen stemmen (late beslissers). De peiling capteert met andere woorden het kiesgedrag van de late beslissers niet goed. Om informatie te verzamelen over de verschillen tussen de geregistreerde kiesintentie en het feitelijke kiesgedrag kan men kiezers juist nadat ze gestemd hebben bevragen over hun kiesintentie en kiesgedrag (exit polls) of men kan de respondenten die hebben meegewerkt aan een peiling na de verkiezingen terug bevragen (her-interview).
Deze informatie was beschikbaar voor sommige peilingen van de twee presidentsverkiezingen in de VS (2016 en 2020) en de parlementsverkiezingen van 2015 in het VK. Uit de resultaten blijkt dat er voor de presidentsverkiezingen in 2016 een beperkte impact was van veranderingen in de kiesintentie net voor de verkiezingen en van late beslissers in het voordeel van Trump waardoor in de peilingen het aandeel van de Trump kiezers lichtelijk werd onderschat. Een dergelijk effect van late beslissers of van veranderingen tussen de peiling en de verkiezing was er nagenoeg niet in de verkiezingen in 2020.
Ook in het VK kwam men tot een gelijkaardige conclusie. In de peilingen van 2015 werd omwille van verschuivingen tussen de dag van de peiling en de dag van de verkiezingen het aandeel van de conservatie partij in zeer beperkte mate onderschat maar dit effect was ruim onvoldoende om het verschil tussen de peilingsresultaten en de verkiezingsuitslag te verklaren. Er dient daarbij te worden opgemerkt dat de periode tussen de peilingen en de verkiezingsdag maximaal een week was.
De verlegen kiezer
Een tweede verklaring die in commentaren op foute peilingen vaak wordt aangehaald is dat sommige mensen op het moment van de peiling reeds vrij zeker zijn voor wie ze gaan stemmen maar de vraag naar de kiesintentie bewust niet correct beantwoorden. Bewuste foute antwoorden zijn doorgaans het gevolg van het geven van sociale wenselijke antwoorden.
In de context van politieke peilingen betekent dit dat sommige personen verlegen zijn om hun politieke voorkeur kenbaar te maken en die verlegenheid omzeilen ze door een antwoord te geven waarvan men denkt dat het overeenstemt met wat er algemeen verwacht wordt. Bij deze verklaring veronderstelt men m.a.w. dat niet iedereen de vraag naar kiesintentie omwille van sociale wenselijkheid oprecht beantwoordt.
Bij de presidentsverkiezingen in de VS in 2016 werd de hypothese van de ‘verlegen’ Trump kiezer naar voor geschoven als een mogelijke oorzaak van de onderschatting van de aanhang van Trump. Na een grondige vergelijking van de resultaten die bekomen werden door verschillende bevragingswijzen (bv. telefonische interviews versus een vragenlijst die men zelf invult) kwam men echter tot de conclusie dat er geen overtuigend bewijs was voor een effect van ‘de verlegen’ Trump kiezer. Na de presidentsverkiezingen in 2020 kwam men tot een gelijkaardige conclusie dat de fouten in de peilingen zeker niet in eerste instantie het gevolg waren van respondenten die hun steun voor Trump tijdens de bevraging niet wensten mee te delen.
Ook bij de analyse van de peilingsresultaten van de parlementsverkiezing in het VK in 2015 werd uitgesloten dat het opzettelijk fout rapporteren van de kiezingintentie een belangrijke oorzaak was van de verkeerde peilingsresultaten.
Representativiteit van de steekproef
Bij een peiling in het algemeen en bijgevolg ook bij peilingen naar de kiesintenties wordt gebruik gemaakt van steekproeven. Op basis van de informatie die men verzamelt bij een steekproef worden er uitspraken gedaan over de volledige groep van kiesgerechtigden. Om dergelijke algemene uitspraken te kunnen doen moeten de steekproeven representatief zijn. Een toevallige selectie van personen uit de populatie kan die representativiteit garanderen. Bij de zoektocht naar de oorzaken van de foute peilingen in het VK in 2015 werd veel aandacht besteed aan de evaluatie van de representativiteit van de steekproeven waarmee er werd gewerkt. Alle peilingen die in de evaluatie gebruikt werden maakten gebruik van niet op toeval gebaseerde quota steekproeven.
De conclusie over het gebruik van dergelijke steekproeven is duidelijk: de belangrijkste oorzaak van de foute peilingsresultaten was dat de steekproeven niet representatief waren voor de populatie van de kiezers. In de gebruikte steekproeven die dus niet werden samengesteld op basis van een toevallige selectie waren de aanhangers van Labor systematisch oververtegenwoordigd en de Conservatieven systematisch ondervertegenwoordigd. Zo blijkt o.a. dat de peilingen de aanhang van de Conservatieve partij onderschatten in regio’s waar de proportie conservatieve stemmers hoger was dan het nationale gemiddelde. De gebruikte weegprocedures waren ook niet afdoend om die systematisch over- en ondervertegenwoordiging weg te werken.
Het gebrek aan representativiteit was ook een probleem bij de peilingen naar aanleiding van de presidentsverkiezingen in de VS in 2016. Er werd o.a. vastgesteld dat er in de peilingen een oververtegenwoordiging was van universitaire geschoolden en dat in deze groep de kans om voor Clinton te stemmen groter was. Veel peilingen in 2016 pasten hun weegprocedure niet aan om te corrigeren voor deze oververtegenwoordiging van universitairen met als resultaat een overschatting van de steun voor Clinton.
Uit de resultaten van de analyse van de fouten in de peilingen van 2020 blijkt dat er teveel democraten hadden meegewerkt aan de peilingen en te weinig republikeinen. Verder blijkt ook dat zowel bij de democraten als bij de republikeinen er een verschil is tussen zij die hebben meegewerkt en zij die niet hebben meegewerkt. De deelnemers aan peilingen verschillen dus op een aantal relevante kenmerken van diegene die niet hebben deelgenomen en zijn niet representatief voor de volledige groep van stemmers. De conclusie was dan ook dat ten minste een deel van fouten in de peilingen van 2020 kunnen worden toegeschreven aan het gebrek aan representativiteit van de steekproeven waarmee er gewerkt werd.
Wat hebben we geleerd?
We hebben geleerd dat de evaluatie van de juistheid van peilingen niet vanzelfsprekend is en moet gebeuren op basis van de juiste statistische procedures. De perceptie van de juistheid van peilingen is niet altijd in overeenstemming met de objectieve statistische evaluatie van peilingsresultaten. Soms zijn de verwachtingen omtrent de precisie van peilingen te hoog. Het verkeerd voospellen van ‘de winnaar’ speelt bij de beoordeling van peilingsresultaten een grotere rol dan het fout voorspellen van de verschillen tussen de resultaten van kandidaten of partijen wanneer de voorspelde volgorde correct is. Verder hebben we ook geleerd dat wanneer de resultaten van peilingen van verschillende onderzoeksinstituten in dezelfde richting wijzen dit niet gebruikt kan worden als een bijkomend argument dat de peilingsresultaten een correcte voorafspiegeling zullen zijn van het verkiezingsresultaat.
Uit onderzoek blijkt dat de groep van de late beslissers en verandering in kiesintentie net voor de verkiezingen slechts in zeer beperkte mate verantwoordelijk zijn voor de verschillen tussen de peilingen en de verkiezingsuitslag. Ook voor de verklaring die stelt dat er verlegen kiezers zijn die omwille van sociale wenselijkheid bewust foute antwoorden geven wordt niet bevestigd door onderzoek.
De belangrijkste oorzaak voor fouten in peilingen is zonder twijfel het werken met niet representatieve steekproeven. Dit gebrek aan representativiteit is in hoofdzaak het gevolg van het feit dat bij de samenstelling van de steekproef de selectie van de personen niet op een toevallige wijze gebeurde.
Wat kunnen we verwachten?
Kunnen we op basis van wat we geleerd hebben, voorspellen of de resultaten van de peilingen die gebeuren in aanloop naar de verkiezingen op 9 juni 2024 correct zullen zijn?
Bij (recent gepubliceerde) politieke peilingen wordt er gewerkt met online panels die niet zijn samengesteld op basis van een toevallige selectie. Dit is ongetwijfeld de grootste tekortkoming van deze peilingen. Er is geen garantie op representativiteit en we weten dat dit niet kan opgelost worden door de resultaten te gaan wegen. Het risico dat de peilingen fout zijn is omwille van die reden dan ook redelijk groot. Dit is zeker het geval wanneer de peilingen niet kort voor de verkiezingsdag werden georganiseerd en de peilingen de impact van late beslissers en veranderingen in kiesintentie niet registeren.
De kans dat er na en een de verkiezingen een discussie zal zijn over de juistheid van de peilingen lijkt vrij groot. Hopelijk gebeurt dit op basis van de juiste statistische procedures en resulteert de discussie in een grondig evaluatie van de wijze waarop de peilingen werden uitgevoerd en van de capaciteit die beschikbaar is om peilingen uit te voeren.
We eindigen met een platitude: de enige correct peiling zal uiteindelijk het verkiezingsresultaat zijn. Pas dan zal met behulp van simpele rekenkunde duidelijk worden met welke partijen er een werkbare meerderheid kan gevormd worden. Speculaties daaromtrent op basis van peilingsresultaten kan men best klasseren bij de strategische gezelschapspellen.
Geert Loosveldt is Professor emeritus met opdracht aan het Centrum voor Sociologisch Onderzoek (CeSO) van de KU Leuven.
Fout opgemerkt of meer nieuws? Meld het hier