De onthullingen over de spionagetechnieken van de Amerikaanse veiligheidsdienst NSA, die dagelijks honderden miljoenen e-mails screent, bracht dataminingonder de aandacht: het automatisch uitpluizen van gigantische hoeveelheden gegevens in de zoektocht naar nuttige informatie. Veel mensen zijn voortdurend in de weer met ingewikkelde software om massa's gegevens te controleren en er God-weet-wat uit te filteren.
...

De onthullingen over de spionagetechnieken van de Amerikaanse veiligheidsdienst NSA, die dagelijks honderden miljoenen e-mails screent, bracht dataminingonder de aandacht: het automatisch uitpluizen van gigantische hoeveelheden gegevens in de zoektocht naar nuttige informatie. Veel mensen zijn voortdurend in de weer met ingewikkelde software om massa's gegevens te controleren en er God-weet-wat uit te filteren. De toenemende grootschaligheid van gegevensbanken domineert ook steeds meer het wetenschappelijk onderzoek. In de natuurkunde is het al de gewoonte dat peperdure machines, zoals satellieten en deeltjesversnellers, een tijdlang ononderbroken gegevens spuien, die vervolgens door soms honderden wetenschappers onder de loep genomen worden. Publicaties met analyses van sterrenstof of elementaire deeltjes vergen soms een bladzijde om alle auteurs op te lijsten. Ook de biologie wordt stilaan overdonderd door grootschaligheid. Het Human Genome Project, dat in het begin van deze eeuw de genen van de mens in kaart bracht, kostte 3 miljard dollar, hoewel een privé-initiatief het in dezelfde periode met een andere methode voor 300 miljoen deed. Er kwam veel kritiek op de enorm dure inspanning, omdat niet iedereen het erover eens was dat het geld goed werd besteed. Voor een deel had dat te maken met de onrealistisch hoge verwachtingen die de verdedigers van het project hadden gewekt: het initiatief zou veel - zo niet bijna alle - ziektes behandelbaar maken. De hype maakte snel plaats voor realisme: het bestrijden van ziektes is ingewikkelder dan wat gesleutel aan genen. 'Toch denk ik niet dat vandaag nog veel mensen betwijfelen dat het project uiterst rendabel is geweest', zegt bio-informaticus Jeroen Raes van het Vlaams Instituut voor Biotechnologie - hij maakt momenteel de overstap van de Brusselse naar de Leuvense tak van het VIB. 'Het heeft onder meer technologie opgeleverd die vandaag zo gemeengoed is geworden dat we nu voor amper enkele duizenden euro's een genoom kunnen analyseren. We beschikken ook al over een uitgebreide set genetische gegevens, waarmee artsen en wetenschappers ziektes of genetische informatie van individuele patiënten onmiddellijk kunnen evalueren. Als iemand een specifiek gen nodig heeft voor zijn diagnose of onderzoek, heeft hij in een halve minuut toegang tot alles wat er over dat gen bekend is. Er is letterlijk een schat aan informatie beschikbaar.' Genoomscreening is zo mainstream geworden dat je je eigen genenkaart kunt laten analyseren en ze via je Facebook-pagina publiek kunt maken. Als veel mensen dat doen, levert dat weer een schat aan informatie op, hoewel er vragen rijzen over privacy en andere ethische bezwaren, want momenteel is niet duidelijk wat de gevolgen kunnen zijn van het openbaren van je genetische gegevens. Dataminingtechnieken worden echt algemeen: de software waarmee de webwinkel Amazon op basis van eerdere aankopen bepaalt welke boeken je interessant zou kunnen vinden, is dezelfde die wetenschappers gebruiken om ecologische netwerken te doorgronden. 'We komen in de fase dat we een heel ecosysteem ineens kunnen bestuderen door massaal veel genen te screenen', vertelt Raes, die zelf een project lopen heeft waarmee hij door middel van een supercomputer gegevens over de stoelgang van 10.000 Vlamingen wil analyseren om zicht te krijgen op de factoren die de darmflora sturen. 'In feite is dat een upscalen van wat tien jaar geleden nog gewone wetenschap was. Er zijn nu datasets waarin 6 à 9 miljoen genen van bacteriën uit de darm zitten. Iedereen die de darmflora bestudeert, kan terugvallen op die blueprint. Zo kun je dingen doen waar je vroeger als individuele wetenschapper zelfs niet aan moest denken.' Ingenieur Yves Moreau van de KU Leuven sleutelt binnen het consortium iMinds aan software waarmee de diagnose van zeldzame genetische ziektes gemakkelijker wordt. Ook dat is vooral een kwestie van methodes vinden om relevante informatie te puren uit een groeiende massa gegevens. Maar de technologie rendeert. 'Tien jaar geleden konden artsen voor ongeveer 40 procent van de patiënten met een zeldzame genetische ziekte een juiste diagnose stellen', zegt Moreau. 'Vandaag is dat al 60 tot 70 procent, en de techniek wordt steeds goedkoper, zodat we binnenkort aan 80 procent zullen komen. Het is uiteraard belangrijk dat de gegevensbanken toegankelijk zijn voor andere wetenschappers dan degenen die ze maakten, zodat iedereen de vruchten van het werk kan plukken.' De digitalisering van informatie moet ook een probleem oplossen dat het vakblad Current Biology onlangs aankaartte. Het blad stelde vast dat liefst 80 procent van de kleine datasets twintig jaar na het verzamelen ervan niet meer te vinden is. Anderzijds zien steeds meer mensen het groot, zoeken ze 10.000 kankerpatiënten voor een genenonderzoek of 100.000 vrijwilligers voor een slaapanalyse. Hoe meer gegevens, hoe groter de kans op het vinden van minder opvallende verbanden tussen bijvoorbeeld genen en ziektes. Moreau hamert op het onderscheid tussen big science en big data: 'Het Human Genome Project was big science, een consortium van wetenschappers dat met veel geld een baanbrekend project realiseerde. Maar de technieken voor grootschalige genetische screening zijn vandaag zo goedkoop geworden dat zelfs kleine groepen er big data mee kunnen genereren, tegen niet eens een hoge kostprijs. Wat niet belet dat sommige mensen het groot blijven zien. Er is een consortium in de maak dat het genoom van 100.000 mensen wil screenen. Het zal een grote uitdaging zijn om de massa gegevens die dat oplevert efficiënt te exploiteren.' Een voorbeeld van échte big science is het project dat de Europese Commissie eind vorig jaar in de steigers zette. Gedurende tien jaar wordt 1 miljard euro uitgetrokken voor het Human Brain Project; de helft van het bedrag moet van de deelnemende landen komen. De bedoeling is om aan het eind van de rit eindelijk te begrijpen hoe onze hersenen functioneren - zelfs de sterkste supercomputers zijn vandaag te zwak om ons denkwerk te simuleren. Het vakblad Nature omschreef het project als 'een initiatief met een hoog risico op mislukking in het invullen van zijn grote belofte'. Liefst 135 instituten nemen deel - in totaal meer dan vijfhonderd personen die elkaar jaarlijks verschillende keren ontmoeten. De enige Belgische onderzoeksgroep in het verhaal is voorlopig die van ingenieur Benjamin Schrauwen van de UGent, die de wiskundige regels aan de basis van intelligentie in onze hersenen onderzoekt: 'We willen finaal de manier waarop de hersenen werken in hardware vastleggen. We willen computers maken die op dezelfde manier functioneren als het enorme netwerk van cellen in de hersenen. Die moeten veel sneller zijn dan de computers van nu.' Schrauwen ziet het project vooral als een conglomeraat van een tiental deelprojecten, die gekozen werden door eminente oude neurologen, en niet door de bureaucraten van de Commissie: 'Op zich is dat goed, want de beslissingen worden genomen door mensen die weten wat belangrijk is. Maar het is in dit geval een tweesnijdend zwaard, want door te focussen op de oude garde worden echte innovaties wat onderbenut. Het hoofddoel is niet zozeer het simuleren van de hersenen, wel het begrijpen van specifieke problemen, zoals het ontstaan van dementie. Maar als daarbij iets uit de lucht valt dat andere doorbraken oplevert, is dat meegenomen.' Schrauwen heeft begrip voor de kritiek dat het project de doodsteek kan betekenen voor kleinere laboratoria met onvoldoende financiering: 'Het was politiek redelijk ingewikkeld om in het initiële consortium opgenomen te worden. Toch worden er elk jaar nieuwe groepen aangetrokken om deelproblemen aan te pakken. Maar niemand moet zich illusies maken over zware financiering, want momenteel is slechts een derde van het geld waarmee geschermd werd beschikbaar. Ik kan met mijn budget één of twee doctoraatsstudenten aantrekken. Sommigen zouden dat als "schandalig onderbetaald" bestempelen.' Ingenieur Peter Peumans van het Interuniversitair Micro-Elektronica Centrum (IMEC) gelooft niet in wat het Human Brain Project beoogt: 'Wij wilden aanvankelijk deelnemen aan het consortium, maar het project is voor ons te sterk gefocust op het simuleren van het brein. Zij denken dat er genoeg gegevens zijn om dat te kunnen, wij menen dat er nog lang niet genoeg zijn. Wij zoeken naar methodes om meer en betere data te genereren.' IMEC herbergt het NERF-consortium (Neuro-Electronics Research Flanders), dat onder meer onderzoekt hoe hersencellen informatie uitwisselen. Peumans sleutelt met Amerikaanse en Britse onderzoeksinstellingen aan zogenaamde neuroprobes: chips in de vorm van een naald waarmee tegelijk duizenden metingen van de elektrische activiteit van individuele hersencellen gedaan kunnen worden. De bedoeling is dat er ooit een soort interface tussen artsen of onderzoekers en de hersenen (van bijvoorbeeld patiënten) geplaatst kan worden. De industrie heeft veel geld gepompt in de ontwikkeling van chiptechnologie voor onder meer smartphones, maar nu kan die aangepast worden voor wetenschap en gezondheidszorg zonder dat het veel hoeft te kosten. 'De Vlaamse overheid investeert elk jaar 48 miljoen euro in IMEC, maar dat geld functioneert als een hefboom: onze partners brengen vijf keer meer aan', zegt Peumans. 'Wij vormen echt een platform voor samenwerking. Toch proberen wij te vermijden dat het grote geweld de kleintjes in de verdrukking brengt. Wij helpen met de lancering van veelbelovende start-ups.' DOOR DIRK DRAULANSHoe meer gegevens, hoe groter de kans dat we verbanden vinden tussen genen en ziektes. De software waarmee Amazon u boeken aanraadt, gebruiken ook wetenschappers om ecologische netwerken te doorgronden.