Het topvoetbal investeert miljoenen in data en statistiekanalyse, voorlopig met weinig tastbaar resultaat. Mogelijke uitzondering: de Brusselse club Union.

De Britse journalist Rory Smith schreef een interessant boek, maar de ondertitel is een leugen. Expected Goals belooft ‘The Story of How Data Conquered Football and Changed the Game Forever’, maar van die verandering valt al bij al weinig te merken. Sterker nog, na het lezen van Smiths boek vraag je je af of de vele miljoenen die het voetbal in zijn datarevolutie pompt geen weggesmeten geld zijn.

Rory Smith is voetbalcorrespondent bij The New York Times. Hij vergelijkt met Amerikaanse sporten zoals NBA-basket, honkbal of American football, waar data het begin en het einde van alles zijn. Iedere transfer of iedere tactische keuze gebeurt op basis van cijfers, zonder uitzondering.

‘Coaches uit de NFL (competitie in het American football, nvdr) zouden uit het raam springen omdat de data zeggen dat dat sneller gaat dan de trap nemen,’ tweette de Amerikaanse sportjournalist Bill Simmons treffend.

De focus op cijfers heeft die sporten fundamenteel veranderd. In de NBA wordt er bijvoorbeeld veel meer geschoten achter de driepuntlijn: spelers missen misschien vaker, maar de keren dat het wel lukt levert hen drie punten op in plaats van twee, zodat het netto toch de moeite loont.

Onder vier ogen bekennen nogal wat trainers dat ze die statistieken, de quants en hun algoritmes gebakken lucht vinden.

In het honkbal doorkammen managers de statistieken op zoek naar spelers die één facet van het spel tot in de puntjes beheersen. Zij zijn goedkoper dan complete honkballers die alles goed kunnen, en een team van specialisten zal een ploeg van generalisten doorgaans nog kloppen ook. Dat inzicht ontstond puur uit de cijfers, met als gevolg dat de talentscout in het honkbal verdrongen wordt door de wiskundige.

Smith verwacht dergelijke revelaties ook in het voetbal te vinden, en uiteraard zoekt hij die in de Premier League. Daar is wel degelijk iets aan het gebeuren rond data en voetbalstatistieken, vooral onder impuls van Amerikaanse clubeigenaren. De grote verdienste van het boek van Rory Smith is dat hij een licht werpt op hoe het voetbal aan zijn ruwe data komt. Denk daarbij niet aan de statistieken over assists of balbezit die u bij televisiematchen ziet. Die zijn te rudimentair om grondig te analyseren, en in feite ook te banaal. Om te weten dat een middenvelder die veel assists geeft, goed kan passen, heeft u geen trainersdiploma nodig. De cijfers zeggen wat ze zeggen.

Nee, het gaat om diepere gegevens over het spel en er is een hele industrie ontstaan om die naar boven te halen. Rory Smith neust in de interne keuken van ProZone, Opta, Impect, StatDNA en anderen. Die databedrijven runnen clickfarms in Egypte, Laos en de Filipijnen waar honderden taggers wedstrijden zo objectief mogelijk in cijfers proberen te gieten.

Die taggers krijgen een basisopleiding in voetbaltactiek, maar ze leren vooral nauwgezet te kijken. Ze noteren niet alleen dat speler A naar speler B passt, maar ook hoe hard de pass getrapt werd, van welke voet de bal vertrok, met welke voet hij werd aangenomen, in welk deel van het terrein de actie plaatsvond en of er tegenstanders in de buurt stonden. De hoeveelheid gegevens die je rond één simpele pass kunt generen is eindeloos, laat staan over een hele wedstrijd.

Taggers moeten doorzien welke gegevens ertoe doen. Het examen om te mogen beginnen als tagger bij statistiekbureau Impect is de 7-1 van Duitsland tegen Brazilië, in de halve finale van het WK van 2014. In de basisstatistieken leek Brazilië de betere ploeg: de Brazilianen hadden meer balbezit en meer schoten op doel. Wie als tagger aan de slag wil, moet in cijfers naar boven kunnen halen waarom Duitsland desondanks vlot won. En dat onder tijdsdruk, want er moet in ijltempo worden geleverd. Een team van taggers krijgt drie uur om een wedstrijd uit te splitsen in data. Op termijn wordt hun werk ongetwijfeld overgenomen door artificiële intelligentie, maar de eerste experimenten met AI schijnen niet geweldig te zijn.

Schaakgrootmeester

Zodra de Excelsheets uit de lagelonenlanden worden doorgemaild, gaan de quants ermee aan de slag. Wiskundige bollebozen, types die normaal beursvoorspellingen maken voor hedgefondsen, doen nu iets soortgelijks voor voetbalploegen. Zeker in de Premier League investeren ze fors in quants: elke club heeft er minstens tien in dienst. Het gaat om het kruim onder de wetenschappers, mensen uit erg diverse vakgebieden ook. Het analistenteam van Liverpool bestond uit een astrofysicus, een schaakgrootmeester, een polymeerchemicus en iemand die bij wetenschapsinstituut Cern aan de Large Hadron Collider werkte.

Wat zij precies doen, blijft in nevelen gehuld: geheimhoudingsovereenkomsten zijn standaard. Maar wat naar buiten sijpelt, is teleurstellend. Fundamenteel voor de quants is eindelijk weten welke statistiek het best voorspelt welk team de match wint. Daaruit volgt dat je kunt manipuleren dat jouw team voortaan die statistiek leidt. Men lanceert nieuwe termen, die het warm water willen heruitvinden.

Possession value vertrekt bijvoorbeeld vanuit het idee dat balbezit niet overal even belangrijk is: de bal hebben in het strafschopgebied van de tegenstander is meer waard dan wanneer je doelloos rondtikt op de eigen speelhelft. De packing score meet hoeveel tegenstanders met één actie omzeild worden. Dat kan door een dribbel, een steekpass of eender hoe. Ploegen die het efficiëntst packen, winnen volgens de quants zo goed als altijd. Het zijn interessante manieren om naar voetbal te kijken, maar iedere coach stelt zich dezelfde vraag: ben ik daar nu iets mee?

Die topwetenschappers beseffen dat ook, velen haken gefrustreerd af. In Expected Goals interviewt Rory Smith er een aantal. Wat hen nog het meest stoorde, was dat zij in feite dienden om een wetenschappelijke air te geven aan het onderbuikgevoel van de trainer. Vooraf genomen beslissingen moesten gerechtvaardigd worden door data. Hoe Alex Ferguson zich mispakte aan Jaap Stam, illustreert dat. De Nederlandse verdediger speelde drie geweldige seizoenen bij Manchester United, waarmee hij de Champions League won.

Trainer Ferguson, een voorloper in het gebruik van voetbalstatistiek, zag dat zijn aantal ‘bepalende tackles’ – tackles die een scoringskans afbreken – sterk terugviel. Ferguson verpatste Stam aan Lazio Roma. De Nederlander was toen 29 en waarschijnlijk op zijn retour, vermoedde Ferguson. Stam speelde nochtans de pannen van het dak in Italië. Na één jaar ging hij voor een topbedrag naar AC Milan, dat met de onkreukbare Nederlander de finale van de Champions League haalde. Gek genoeg zakte zijn aantal ‘bepalende tackles’ zelfs verder in. Intussen begrijpen de quants wat er aan de hand was met Jaap Stam.

De database van Brighton, en dus ook van Union, schijnt erg goed te zijn in het inschatten of spelers bij elkaar passen.

‘Bepalende tackles’ is een bedrieglijke statistiek: de beste verdedigers ontmijnen het gevaar met slim positiespel, en hoeven dus niet te tackelen. Stam was niet over the hill, hij was een betere speler geworden. In de anekdote zit een dubbele les. Ten eerste: voetbalstatistieken zijn als het Orakel van Delphi. Hun boodschap valt op verschillende manieren te interpreteren, vaak weet je pas achteraf wat de waarheid was. Les twee hangt daarmee samen: met statistieken kun je iedere stelling staven, als je dat wilt. Alex Ferguson wilde sowieso af van Jaap Stam. De Nederlander had een pikante autobiografie uitgebracht die voor stennis zorgde in de kleedkamer. Zijn trainer zocht een stok om een hond te slaan, en las in de statistieken wat hij lezen wilde.

Lijntrekkers

Je klinkt als een dinosaurus wanneer je er openlijk voor uitkomt, maar onder vier ogen bekennen nogal wat trainers dat ze die statistieken, de quants en hun algoritmes gebakken lucht vinden. Als ze data gebruiken, dan liefst zo concreet mogelijk. Op maandag hangt er een printje in het spelershome met hoeveel kilometer elke speler gelopen heeft, met de hype van het moment vet aangeduid: high intensity runs of sprints tegen topsnelheid zijn erg belangrijk geworden in het topvoetbal. Die afgeprinte statistiek dient om lijntrekkers met hun tekortkomingen te confronteren: je wilt niet de luiwammes zijn die laatste staat in het klassement van de gelopen kilometers.

Nu zijn voetballers, in tegenstelling tot wat soms wordt gedacht, niet dom. Ze weten hoe ze de cijfers kunnen manipuleren. Pablo Zabaleta, de vroegere rechtsback van Manchester City, sprintte naar de zijlijn telkens het spel stillag voor een blessurebehandeling. De trainers van City vonden het raar, tot ze begrepen dat Zabaleta zo zijn statistieken opkrikte: de gechipte sportbeha’s die voetballers dragen – die het aantal gelopen kilometers opmeten – weten niet wanneer de match stilligt.

Op één terrein hebben data en statistiek het voetbal wel degelijk veranderd: trainers kijken met veel interesse naar kansberekening. Stel dat er een vrije trap is aan de rand van het strafschopgebied. Wat geeft dan de grootste kans op een doelpunt: rechtstreeks schieten of passen naar een medespeler? Data van honderdduizenden matchen worden in de blender gestopt voor een definitief antwoord en de conclusies sijpelen door naar wedstrijden die nog moeten worden gespeeld. Een zichtbaar gevolg is het uitsterven van het afstandsschot.

Databedrijf Nielsen Gracenote stelde op de laatste Wereldbeker vast dat amper 7,6 procent van de goals werden gescoord van buiten het strafschopgebied. Op de World Cup van 2006 was dat nog 18,6 procent. Trainers vragen hun spelers om minder van ver te schieten, de kans op succes ligt te laag. Daar komt nog bij dat een gemist schot de bal aan het andere team ‘geeft’, en uit de data blijkt dat zo’n plotse wissel van balbezit tot een gevaarlijke tegenaanval kan leiden.

Kansberekening wordt losgelaten op alle facetten van het spel. Men onderzoekt waar de bal zal landen wanneer de keeper hem weg bokst na een mislukte hoekschop. Er gaan studies naar welk type aanloop het efficiëntst is bij een strafschop, met de verrassende conclusie dat spelers niet mogen wegkijken van het doel zodra ze de bal op de stip hebben gelegd. Je wandelt dus het best achteruit wanneer je je klaarmaakt om een penalty te schieten. Let er maar eens op: aan de top zal iedere voetballer zo aanlopen. Hét kernbegrip is Expected Goals of xG in het jargon. xG geeft de waarschijnlijkheid weer dat een schot tot een doelpunt leidt. Het is waarschijnlijk de enige term uit de datarevolutie die ruim erkend is onder trainers. Bij verloren matchen gebruiken ze het zelfs als excuus: ‘We hadden meer Expected Goals dan de tegenpartij’, en we verdienden dus eigenlijk om te winnen.

Zelfbehoud

Volgens Rory Smith bestaan er momenteel slechts drie profclubs die hun volledige beleid baseren op data: het Deense Midtjylland en de Premier League-clubs Brighton en Brentford. Niet toevallig zijn die allen eigendom van beroepsgokkers: dataondernemers die geld verdienen aan slecht opgestelde goknoteringen. Zij werken sowieso al met quants. Smith beseft niet dat er nog een vierde profclub op data draait: Union Sint-Gillis, momenteel tweede in de Belgische eerste klasse, heeft dezelfde eigenaar als Brighton. Midtjylland, Brighton, Brentford en Union behalen mooie resultaten met relatief bescheiden middelen. De critici brengen ertegenin dat het om clubs van de tweede rang gaat, waar je met goed speuren naar onderschatte spelers het verschil kunt maken. Aan de echte top, waar alle toptalenten bekend zijn, bestaan er geen koopjes.

De database van Brighton, en dus ook van Union, schijnt erg goed te zijn in het inschatten of spelers bij elkaar passen. Volgens de traditionele opvatting is die klik er, of niet. Er bestaan nu databedrijfjes die dit onderzoeken, niet voor clubs maar voor de voetballers zelf. De Duitse aanvaller Kai Havertz liet een statistische analyse uitvoeren over welke ploeg het best bij hem zou passen. Havertz liet een transfer naar FC Barcelona schieten, toch een droombestemming voor iedere voetballer. In zijn debuutseizoen bij Chelsea scoorde hij het enige doelpunt in de finale van de Champions League.