Ik moet een jaar of acht zijn geweest, toen ik van mijn ouders een poster kreeg waarop alle vogelsoorten van België stonden afgebeeld. Ik voelde me op slag een ornitholoog. Het waren bij nader inzien niet alle soorten, maar wel de exemplaren die ik kon vinden in het dennenbos in mijn achtertuin. De poster hing jarenlang boven mijn bed. Hij diende als mijn eerste natuurgids wanneer ik lijstjes maakte van vogels in mijn tuin. Via die lijstjes merkte ik dat de Vlaamse gaai, die ooit rijkelijk rondvloog, gestaag in aantal achteruit ging en na een tijdje helemaal verdwenen was. De houtduif ging het beter af, de ijsvogel zag ik nooit.

Nu, vijfentwintig jaar later, ben ik bioloog en statisticus en doe ik eigenlijk nog net hetzelfde. Ik bestudeer trends in ecologische processen. Ik doe meer bepaald onderzoek naar welke statistische methodes we best toepassen om biodiversiteit te bestuderen, wanneer we gebruik maken van citizen science. Dat is zo'n wetenschappelijk modewoord, zoals big data of data science; volgens sommigen de toekomst van de wetenschap, volgens anderen een hype die snel zal overwaaien. De opzet vanuit praktisch oogpunt is eenvoudig: Laten we data, verzameld door vrijwilligers, gebruiken in wetenschappelijk onderzoek. Vrijwilligers zijn talrijk, goedkoop en kunnen dus snel veel gegevens verzamelen. Die data hoeven trouwens niet per sé nu gezocht te worden. Om veranderingen in biodiversiteit te onderzoeken, is het immers belangrijk om een vergelijking met vroeger te kunnen maken. We kunnen dus ook lijstjes gebruiken van natuurliefhebbers die (net zoals ik ooit in de tuin) in de vorige decennia naarstig op zoek gingen naar planten en dieren. Die data analyseren we vervolgens via ingewikkelde statistische methodes, waar we van geloven dat zij ons een eerlijk beeld geven over de trends waar we naar zoeken. Maar kunnen ze dat wel?

Citizen science: kunnen de data ons een eerlijk beeld geven over de trends waar we naar zoeken?

Toen ik als achtjarige citizen scientist in mijn tuin speurde naar vogels, werd ik de veelvoorkomende soorten zoals eksters, huismussen en de destijds nog talrijke merels al snel beu. Na een tijdje vermeldde ik ze niet meer in mijn lijstjes. Ik was op zoek naar nachtegalen, spechten en lijsters; de soorten die wat meer tot de verbeelding spraken. Ik zocht ook meestal diep in het bos, daar waar ik wist dat de interessantste exemplaren gevonden konden worden. Als iemand nu mijn data zou analyseren, zou hij of zij de indruk krijgen dat eksters afnamen in aantallen, maar in werkelijkheid rapporteerde ik ze na een tijdje niet meer. Anderzijds leken spechten toe te nemen doorheen de jaren, maar dat kwam omdat ik ze beter wist te vinden.

Er bestaat de overtuiging dat je natuurlijke processen kunt doorgronden, als je maar veel data voorhanden hebt. De kunst bestaat er momenteel in om manieren te vinden om die data snel te verwerken. Sceptici verwerpen deze aanname, want kwaliteit moet nu eenmaal primeren. Xiao-Li Meng van Harvard University heeft het over de Big Data Paradox: "The more data, the surer we fool ourselves". Voorstanders argumenteren, ook wel terecht, dat het beter is om data van slechtere kwaliteit te hebben dan helemaal geen data. Want om tijdsprocessen te onderzoeken, heb je historische informatie nodig en de meeste oude ecologische gegevens die we hebben, halen we uit lijstjes van natuurliefhebbers. Statistische methodes zijn volgens de believers in staat om die oneffenheden te vinden, ze uit de data te filteren en zo de werkelijke trends bloot te leggen.

En hier is de punchline: 'Alles staat of valt met de manier waarop data verzameld worden.' In mijn presentatie voor de Universiteit van Vlaanderen, leg ik een verband tussen data en muziek. Muziek bestaat uit patronen, zoals een melodie, een drumspel, een baslijn, enz. Een dataset bestaat ook uit patronen, zoals veranderingen in biodiversiteit, en wij als statistici willen die patronen begrijpen. Als muzikant hou ik van soundscapes, drones, en andere muziek waarin door echo's en andere effecten de muzikale patronen bijna helemaal verdwijnen. Als je er een tijdje naar luistert, hoor je zelfs patronen die er niet zijn. In een dataset hou ik er helemaal niet van om misleidende patronen te vinden. Ik wil de echte structuur zien, geen artefacten. Wanneer data niet volgens een protocol verzameld werden, of erger nog, wanneer alle informatie ontbreekt over hoe die data dan wel verzameld werden, wordt het voor een statistische methode heel moeilijk om ecologische patronen van ruis te onderscheiden.

In tijden waarin de mensen die over het behoud van onze bescheiden bossen moeten beslissen liever bomen kappen dan ze te planten, kan de natuur elk handje hulp gebruiken.

Maar wat doen we nu best? Zijn de duizenden observaties van allerhande dieren- en plantensoorten die jaarlijks worden toegevoegd aan waarnemingen.be dan nutteloos? Helemaal niet, ze verschaffen ons veel belangrijke informatie, maar ik pleit voor (nog) meer onderzoek naar doordachte, gemakkelijk uitvoerbare protocols, om via publieke deelname op een gestandaardiseerde manier data te verzamelen. Het is nuttiger om in te zetten op kwaliteit dan op kwantiteit. Ik deed recent een studie waarin ik gegevens, verzameld door experten, gebruikte om biodiversiteit te analyseren in Limburg. Ik deed hetzelfde met data, verzameld door vrijwilligers. Die laatste dataset bevatte ongeveer acht keer meer gegevens dan de expert data. Beide analyses gaven me totaal verschillende resultaten. Ondanks heel wat statistisch vernuft om te corrigeren voor suboptimale dataverzameling bij de vrijwilligers, zat een grote foutenmarge op resultaten komende van de citizen science data, ondanks het feit dat die veel meer observaties bevatten dan de expert data.

Begrijp me niet verkeerd: ik geloof in citizen science. En anderen ook. In juli jongstleden, tijdens een presentatie over deze topic op The International Statistical Ecology Conference, merkte iemand op dat vele historische biologische inzichten gebaseerd zijn op publieke gegevens. Maar in die tijd bestond de term citizen science en de bijhorende polemiek nog niet. Dus laten we het vooral goed vinden dat er pogingen worden gedaan om gegevens, verzameld door mensen die begaan zijn met onze natuur, te gebruiken om die natuur te helpen. In tijden waarin de mensen die over het behoud van onze bescheiden bossen moeten beslissen liever bomen kappen dan ze te planten, kan de natuur elk handje hulp gebruiken.

Ik moet een jaar of acht zijn geweest, toen ik van mijn ouders een poster kreeg waarop alle vogelsoorten van België stonden afgebeeld. Ik voelde me op slag een ornitholoog. Het waren bij nader inzien niet alle soorten, maar wel de exemplaren die ik kon vinden in het dennenbos in mijn achtertuin. De poster hing jarenlang boven mijn bed. Hij diende als mijn eerste natuurgids wanneer ik lijstjes maakte van vogels in mijn tuin. Via die lijstjes merkte ik dat de Vlaamse gaai, die ooit rijkelijk rondvloog, gestaag in aantal achteruit ging en na een tijdje helemaal verdwenen was. De houtduif ging het beter af, de ijsvogel zag ik nooit. Nu, vijfentwintig jaar later, ben ik bioloog en statisticus en doe ik eigenlijk nog net hetzelfde. Ik bestudeer trends in ecologische processen. Ik doe meer bepaald onderzoek naar welke statistische methodes we best toepassen om biodiversiteit te bestuderen, wanneer we gebruik maken van citizen science. Dat is zo'n wetenschappelijk modewoord, zoals big data of data science; volgens sommigen de toekomst van de wetenschap, volgens anderen een hype die snel zal overwaaien. De opzet vanuit praktisch oogpunt is eenvoudig: Laten we data, verzameld door vrijwilligers, gebruiken in wetenschappelijk onderzoek. Vrijwilligers zijn talrijk, goedkoop en kunnen dus snel veel gegevens verzamelen. Die data hoeven trouwens niet per sé nu gezocht te worden. Om veranderingen in biodiversiteit te onderzoeken, is het immers belangrijk om een vergelijking met vroeger te kunnen maken. We kunnen dus ook lijstjes gebruiken van natuurliefhebbers die (net zoals ik ooit in de tuin) in de vorige decennia naarstig op zoek gingen naar planten en dieren. Die data analyseren we vervolgens via ingewikkelde statistische methodes, waar we van geloven dat zij ons een eerlijk beeld geven over de trends waar we naar zoeken. Maar kunnen ze dat wel?Toen ik als achtjarige citizen scientist in mijn tuin speurde naar vogels, werd ik de veelvoorkomende soorten zoals eksters, huismussen en de destijds nog talrijke merels al snel beu. Na een tijdje vermeldde ik ze niet meer in mijn lijstjes. Ik was op zoek naar nachtegalen, spechten en lijsters; de soorten die wat meer tot de verbeelding spraken. Ik zocht ook meestal diep in het bos, daar waar ik wist dat de interessantste exemplaren gevonden konden worden. Als iemand nu mijn data zou analyseren, zou hij of zij de indruk krijgen dat eksters afnamen in aantallen, maar in werkelijkheid rapporteerde ik ze na een tijdje niet meer. Anderzijds leken spechten toe te nemen doorheen de jaren, maar dat kwam omdat ik ze beter wist te vinden.Er bestaat de overtuiging dat je natuurlijke processen kunt doorgronden, als je maar veel data voorhanden hebt. De kunst bestaat er momenteel in om manieren te vinden om die data snel te verwerken. Sceptici verwerpen deze aanname, want kwaliteit moet nu eenmaal primeren. Xiao-Li Meng van Harvard University heeft het over de Big Data Paradox: "The more data, the surer we fool ourselves". Voorstanders argumenteren, ook wel terecht, dat het beter is om data van slechtere kwaliteit te hebben dan helemaal geen data. Want om tijdsprocessen te onderzoeken, heb je historische informatie nodig en de meeste oude ecologische gegevens die we hebben, halen we uit lijstjes van natuurliefhebbers. Statistische methodes zijn volgens de believers in staat om die oneffenheden te vinden, ze uit de data te filteren en zo de werkelijke trends bloot te leggen.En hier is de punchline: 'Alles staat of valt met de manier waarop data verzameld worden.' In mijn presentatie voor de Universiteit van Vlaanderen, leg ik een verband tussen data en muziek. Muziek bestaat uit patronen, zoals een melodie, een drumspel, een baslijn, enz. Een dataset bestaat ook uit patronen, zoals veranderingen in biodiversiteit, en wij als statistici willen die patronen begrijpen. Als muzikant hou ik van soundscapes, drones, en andere muziek waarin door echo's en andere effecten de muzikale patronen bijna helemaal verdwijnen. Als je er een tijdje naar luistert, hoor je zelfs patronen die er niet zijn. In een dataset hou ik er helemaal niet van om misleidende patronen te vinden. Ik wil de echte structuur zien, geen artefacten. Wanneer data niet volgens een protocol verzameld werden, of erger nog, wanneer alle informatie ontbreekt over hoe die data dan wel verzameld werden, wordt het voor een statistische methode heel moeilijk om ecologische patronen van ruis te onderscheiden.Maar wat doen we nu best? Zijn de duizenden observaties van allerhande dieren- en plantensoorten die jaarlijks worden toegevoegd aan waarnemingen.be dan nutteloos? Helemaal niet, ze verschaffen ons veel belangrijke informatie, maar ik pleit voor (nog) meer onderzoek naar doordachte, gemakkelijk uitvoerbare protocols, om via publieke deelname op een gestandaardiseerde manier data te verzamelen. Het is nuttiger om in te zetten op kwaliteit dan op kwantiteit. Ik deed recent een studie waarin ik gegevens, verzameld door experten, gebruikte om biodiversiteit te analyseren in Limburg. Ik deed hetzelfde met data, verzameld door vrijwilligers. Die laatste dataset bevatte ongeveer acht keer meer gegevens dan de expert data. Beide analyses gaven me totaal verschillende resultaten. Ondanks heel wat statistisch vernuft om te corrigeren voor suboptimale dataverzameling bij de vrijwilligers, zat een grote foutenmarge op resultaten komende van de citizen science data, ondanks het feit dat die veel meer observaties bevatten dan de expert data. Begrijp me niet verkeerd: ik geloof in citizen science. En anderen ook. In juli jongstleden, tijdens een presentatie over deze topic op The International Statistical Ecology Conference, merkte iemand op dat vele historische biologische inzichten gebaseerd zijn op publieke gegevens. Maar in die tijd bestond de term citizen science en de bijhorende polemiek nog niet. Dus laten we het vooral goed vinden dat er pogingen worden gedaan om gegevens, verzameld door mensen die begaan zijn met onze natuur, te gebruiken om die natuur te helpen. In tijden waarin de mensen die over het behoud van onze bescheiden bossen moeten beslissen liever bomen kappen dan ze te planten, kan de natuur elk handje hulp gebruiken.