DE GOUDMIJN VAN HET INTERNET

DANIEL CRAIG IN CASINO ROYAL U vindt het horloge van James Bond mooi? Eén klik, en u komt op de website van het merk. © GF

De manier waarop gegevens worden opgeslagen en geanalyseerd is ingrijpend aan het veranderen. Welkom in het tijdperk van ‘big data’, waarin iedere morzel digitale informatie potentieel goud waard is.

Een scène uit Casino Royale, de eerste James Bondprent met Daniel Craig in de hoofdrol. Op het scherm stapt Craig, strak in een zomerkostuum, uit een vliegtuig dat net is geland op de Bahama’s. De Brit Mike Lynch, die de film bekijkt op een tablet, vindt Craigs zonnebril wel mooi, zegt hij. Dus tikt hij erop, de film wordt gepauzeerd, en er komt onmiddellijk een webpagina tevoorschijn van het merk dat de bril verkoopt.

Lynch demonstreert het prototype van een softwareproduct waaraan Autonomy, zijn bedrijf dat in 2011 voor 7,5 miljard euro werd verkocht aan informaticagigant Hewlett-Packard, momenteel werkt. De software herkent niet alleen die ene specifieke bril, zegt Lynch: ook het pak dat Craig draagt, zijn das en schoenen, die auto op de achtergrond, het vliegtuig waaruit hij net is gestapt, om het even welk object op het scherm moet op termijn onmiddellijk herkenbaar zijn en automatisch worden gelinkt aan informatie op het internet. ‘De hoeveelheid data die we willen analyseren zal in de toekomst steeds groter worden’, zegt Lynch. ‘We zullen beeld en video willen linken met tekst en andere informatie, en omgekeerd. Er zijn, wat ons betreft, geen grenzen meer. Elk object op een scherm krijgt betekenis. En daarbuiten ook: met de camera in een smartphone wordt ieder object op de wereld automatisch ook een virtueel object.’

Ongestructureerd

Klinkt futuristisch, en momenteel is het dat ook. Technisch is het perfect haalbaar om beeldherkenningssoftware die bril te laten herkennen, en vervolgens de website van het brillenmerk te linken aan het object. Maar die link moet vandaag nog altijd via menselijke interventie worden voorgeprogrammeerd. En dat is niet haalbaar als álle objecten op het scherm ineens een link op het internet moeten krijgen. Voor zoiets moet de manier waarop digitale gegevens worden opgeslagen drastisch worden omgegooid.

Momenteel slaan opslagservers van bedrijven, overheden en organisaties alleen maar gegevens op die volgens de eigenaar van de databanken betekenis hebben. Maar dat lukt niet voor de toepassingen die Autonomy in gedachten heeft: in plaats van alleen maar betekenisvolle digitale gegevens op te slaan, moeten de gegevensbanken van morgen iedere morzel data die wordt gecreëerd ook opgeslagen houden. Ongestructureerd, zonder dat er mensenhanden mee gemoeid waren. Slimme analysesoftware haalt er vervolgens de juiste informatie uit.

Het systeem is het eenvoudigst te vergelijken met de populaire smartphone-app Shazam. Je hoort een liedje en kunt niet op de titel of de uitvoerder komen? Neem een kort fragment op met de microfoon van je smartphone, en Shazam herkent de song. De noten van het willekeurig uit het nummer gekozen fragment, die werden opgenomen door de smartphone in de buurt van de geluidsbron te houden, worden vergeleken met een enorme gegevensbank waarin eveneens ieder nummer van noot tot noot opgeslagen staat. Als er een overeenkomst is tussen de sequentie die werd opgenomen en een nummer dat in de database staat, haalt het systeem de gezochte informatie terug. Zoiets, maar dan op wereldschaal, zullen we volgens Lynch in de toekomst over het hele internet zien. ‘We hebben 100 procent van alle gegevens nodig die er op de wereld te vinden zijn’, zegt hij. ‘Niet de 15 procent die men vandaag in databanken propt.’

Goud

Informaticabedrijven die bezig zijn met gegevensopslag hebben de boodschap ondertussen begrepen. We zitten – ze zeggen het zó graag – in het tijdperk van de ‘big data’: steeds meer van hun klanten begonnen de voorbije jaren ineens álle gegevens die ze binnenkrijgen bij te houden, en eisen nu slimme software om die te analyseren. Supermarktketens als Wal-Mart in de Verenigde Staten en Tesco in het Verenigd Koninkrijk houden bijvoorbeeld elke kassatransactie van hun klanten bij in hun computersysteem, en gebruiken die informatie om marktanalyses te maken, die dan weer hun marketing- en promotieafdelingen ten goede komen. Iedere dag, zo zegt informaticagigant IBM, worden er wereldwijd 2,5 quintiljoen bytes (één byte is één cijfer of letter, voor een beeldpixel zijn er drie nodig; een quintiljoen is een 1 met 30 nullen) aan gegevens bij gecreëerd, waarvan er dus minder en minder worden weggegooid.

Big data is al meteen big business geworden. De markt voor analysetechnologie voor die nieuwe, enorme dataparken is vandaag al meer dan 3 miljard euro waard, en zal tegen 2015 meer dan 12 miljard euro bedragen. Softwarebedrijven als Microsoft, SAP, IBM, HP en Oracle gaven de laatste jaren zo’n 11,2 miljard euro uit om kleinere bedrijven over te nemen die zich hadden toegelegd op de analyse van die grote gegevensstromen. En natuurlijk neemt ook de vraag naar opslagservers enorm toe: die markt is ondertussen al zo’n 16 miljard euro waard.

‘Er staan tegenwoordig massieve hoeveelheden gegevens ter beschikking van iedereen’, zegt Scott Yara, productdirecteur van Greenplum, een ander softwarebedrijf dat zich heeft toegespitst op slimme analyses van grote hoeveelheden data. ‘Kijk naar hoe de administratie van president Barack Obama meteen na haar intrede een enorme databank aan overheidsgegevens in 2009 gewoon online toegankelijk maakte voor iedere Amerikaanse burger. Maar iemand moet er natuurlijk voor zorgen dat die gegevens beschikbaar blijven. En iemand moet ervoor zorgen dat al die ongestructureerde gegevens worden geanalyseerd.’

Organisch

Dankzij big data en de steeds complexere analysemethodes die bedrijven als Autonomy en Greenplum hanteren, zijn ook de mogelijkheden toegenomen om kennis te halen uit al die gegevens. Bedrijven, overheden en organisaties kunnen automatisch worden gewezen op trends die uit de analyse en de vergelijking van data komen, en er kunnen snellere beslissingen worden genomen. En dan hebben we het niet alleen over een frivole toepassing zoals het linken van pixels op een videoscherm met informatie over een product, in het toespitsen van reclame op een bepaalde gebruiker, of in het voorspellen wat een supermarktbezoeker de volgende keer misschien in zijn winkelkar zal gooien.

Er liggen bijvoorbeeld onvermoede mogelijkheden in misdaadbestrijding en wetenschap. In die branches wordt al decennia met massa’s data omgegaan, maar die gegevens worden niet altijd op de juiste manier geanalyseerd. Met de juiste software worden er minder cruciale verbanden gemist. Verbanden die misschien een doorbraak kunnen betekenen in een politiezaak, of de basis vormen voor een geneesmiddel. ‘De analyse van gegevens wordt iets organisch’, zegt Yara. ‘Het menselijke gedrag verandert constant, en zal altijd een voorsprong blijven houden op wat computers kunnen voorspellen. Maar die voorspellingen zullen dichter en dichter bij de waarheid komen.’

DOOR RONALD MEEUS

Zoals de app Shazam liedjes herkent, zo moet nieuwe software álle informatie gaan herkennen.

Reageren op dit artikel kan u door een e-mail te sturen naar lezersbrieven@knack.be. Uw reactie wordt dan mogelijk meegenomen in het volgende nummer.

Partner Content