13/02/11 om 17:30 - Bijgewerkt om 17:29

Getallen: hoe groter hoe onzichtbaarder

Wetenschap zal uitgebreid worden met een vierde as, naast experiment, theorie en computing: de eScience of kennis van het dataverkeer.

U surft op het internet. Check. U telefoneert met uw smartphone. Check. U zoekt iets op op uw PC. Check. U koopt iets online. Check. Telkens laat u - weliswaar anonieme - gegevens na. Gegevens die door organisaties opgeslagen worden en samen met ontelbare andere, geanalyseerd. Kent u de tabellen van onze overheidsstatistieken ? De bevolkingsregisters, de gemiddelde levensverwachting, de verhouding arbeiders/bedienden: vermenigvuldig die cijfergegevens met een paar honderd miljoen en u komt in de buurt van wat computerwetenschappers Big Data noemen.

Wanneer u een digitale foto neemt, rekent u in megabyte. Uw computergeheugen is in Gigabyte uitgedrukt. Bij Big Data hebben we het over Exabyte. Een Exabyte is 100 miljoen Gigabyte of 1 miljoen Terabyte. Door de groei van het aantal digitale toestellen en de gemakkelijke beschikbaarheid van sensoren en het stijgend kennisniveau van de bevolking groeit de hoeveel gemeten en bewaarde gegevens exponentieel met een factor 10. Schattingen geven aan dat in 2005 zowat 150 EB aan gegevens werden geproduceerd. Dat is uitgegroeid tot 1200 EB in 2010. En het stopt daar niet: men houdt rekening met een vertienvoudiging van de hoeveelheid digitale info elke 5 jaar.

Kijk even terug op uw eigen gedrag. Wat deed u op het internet tien jaar geleden? En vergelijk dat even met nu: u surft, streamt audio en video, deelt info met anderen via sociale netwerken, en dat alles vanaf de PC, én de smartphone en uw tablet of TV. Volgend jaar zal er 667 EB getransporteerd worden over het internet. Hoe komt dat zo?

Er zijn niet alleen de consumenten die digitale gegevens aanmaken; organisaties en bedrijven doen dat op grote schaal om er diepere inzichten en betere resultaten te kunnen uithalen. Vroeger werden gegevens in silo's opgeslagen, voor de boekhouding, de aankoopdienst, de logistiek. Nu worden databases aan elkaar gekoppeld om nog een stap verder te gaan. WallMart, Amerika's grootste retailer, leerde uit zulke analyse dat bij de aankondiging van een tornado de klanten niet alleen zaklampen en baterijen kochten, maar ook voedzame ontbijtsnacks. Een analyseresultaat waarmee de keten zijn aankoopbeleid beter kon bijsturen.

Ook bij ons traceren supermarkten niet alleen minutieus uw aankoopgedrag, maar ze koppelen het ook aan demografische gegevens om hun aanbod en prijszetting te verfijnen. Nestlé verkoopt zijn honderdduizend verschillende producten in zowat 200 landen en telt meer dan een half miljoen leveranciers. Door zijn data correct te organiseren en de organisatie erop te aligneren kon de firma een miljard dollar besparen. Indrukwekkend.

De voordelen van Big Data zijn niet alleen commercieel geïnspireerd. Ook de welzijnssector heeft er baat bij. Neem de gezondheidszorg. In Brussel gaf Craig Mundie, de Chief Architect van mijn firma, onlangs het voorbeeld van een hospitaal in de US dat op een intelligente manier in zijn gegevens dook. Zij wilden de oorzaken vinden waarom bepaalde ontslagen patiënten binnen een paar maanden opnieuw opgenomen dienden te worden. In bepaalde gevallen bleek het om patiënten te gaan van éénzelfde, minder goed opgeleide arts. In bepaalde gevallen verbleven een heel aantal patiënten tijdens hun laatste nacht op een bepaalde kamer, die een defect aan de airco bleek te vertonen. Dat was dus direct voordeel.

Op een bredere schaal gebruikt de Global Viral Forecasting Initiative uit San Francisco analyse van internetgegevens om de oorzaken, locaties en gevolgen van ziekten te identificeren, lang voor ze epidemieën worden. En het Global Pulse Initiatief van de Verenigde Naties kan uit mobiel dataverkeer de tijd tussen de opkomst van een trend en de noodzakelijke reactie van de overheid substantieel verkorten. Alleen al door Twitterconversaties te ontleden kan Global Pulse zien waar en wanneer de voedselprijs de hoogte ingaat. Dat kan aan inflatie liggen, of aan droogte, maar het motiveert de overheid tijdig tot actie.

Het is duidelijk: 2012 wordt het jaar van de Big Data, zoals FastCompany het schreef. Gegevens zijn harde valuta geworden. Vandaag worden er economieën gevormd op gegevens, zegt Craig Mundie. Daar hangen een paar gevolgtrekkingen aan vast.

Gegevens zijn nodig om inzicht te verwerven. In grote aantallen en met meer openheid. Het WEF publiceerde na zijn jongste bijeenkomst een document dat opriep tot "data philantropy" om de wereld te helpen vooruit te gaan. Dat maakt dat beleid in privacy en veiligheid meer dan ooit primordiaal worden. Individuele gebruikers zouden het recht moeten krijgen om de informatie die over hen opgeslagen is te bekijken en indien nodig aan te passen.

Wetenschappers zullen gaandeweg datawetenschappers worden. Wetenschap zal uitgebreid worden met een vierde as, naast experiment, theorie en computing: de eScience of kennis van het dataverkeer. Hebt u die piste al eens overwegen om mee te geven aan uw opgroeiende kinderen?

Dataverwerkers kunnen niets aanvangen met ruwe gegevens alleen. Want ook bij Big Data geldt de wetmatigheid: hoe groter, hoe onzichtbaarder. Als je vlakbij een olifant staat zie je hem niet. De cijferdelvers hebben daarvoor Business Intelligence nodig om trends en resultaten te filteren uit die massa cijfers. Én cloud computing om de nodige schaalgrootte, flexibiliteit en opslagmogelijkheden te hebben die noodzakelijk zijn. Daar bovenop is ook zelf-aanlerende technologie nodig om de gigantische hoeveelheid informatie te verwerken. Kennis is inzicht en geeft macht.

Is onze eigen overheid mee? We staan op de 23e plaats van de Network Readiness Index van het WEF, en zijn een plaatsje gezakt. Ingenieur en informaticus zijn nog steeds knelpuntberoepen. We hebben een prima gezondheidssysteem en willen dat verder doortrekken naar eHealth. Er liggen hier indrukwekkende voordelen te rapen op commercieel vlak, op gezondheidsvlak en tewerkstelling. Geknipt voor een kenniseconomie als de onze.

Philippe Rogge

Onze partners