Vincent Ginis

‘ChatGPT zit nog steeds mooi op de groeicurve’

Vincent Ginis Professor wiskunde, natuurkunde en artificiële intelligentie aan de VUB en Harvard University.

Vincent Ginis schrijft een brief aan ChatGPT, naar aanleiding van de derde verjaardag van het taalmodel.

Beste ChatGPT,

Toen we je eerste verjaardag vierden, voelde ik vooral verwondering. Over de magie dat een model dat alleen maar getraind wordt om het “volgende woord” te voorspellen, plots heel creatief kan schrijven: essays, computercode, of kwantummechanica-in-het jasje-van-een -Vlaams-Schlagerlied. Je tweede verjaardag stond dan weer helemaal in het teken van je nieuwe mogelijkheden om uitvoerig te redeneren.

Nu je drie wordt, merk ik dat je nog steeds mooi op de groeicurve zit. De voorbije jaren hebben we je evolutie immers nauwgezet gemeten met examens: olympiades, programmeertests, Humanity’s Last Exam. Percentages, percentielen, klassementen. Handig, zeker voor wie geïnvesteerd heeft in het koppeleton van AI-bedrijven. Maar in dat meten loert ook Goodhart’s wet: zodra een maatstaf een doel wordt, houdt ze op een goede maatstaf te zijn.

Als labs zich op die scores richten, leer jij de toets, niet de werkelijkheid.

Een recent rapport van het onderzoekslab METR probeert dat patroon te doorbreken met een andere maat: de tijdshorizon van een AI agent. Niet: “Hoe goed scoor je op een benchmark?”, maar: “Hoe lang kan je zelfstandig doorwerken aan echte software en onderzoekstaken voordat de kans op falen groter dan 50% wordt?” 

Op hun grafiek bengelde je als GPT 2, nog in het secondengebied – de aandachtspanne van een pasgeborene. Als GPT 3 en GPT 4 schoof je op naar minutenwerk, zoals kleuters doen. Als GPT 5 haalde je taken van ongeveer twee uur. Dat begint al ergens op te lijken. Je nieuwste gedaante, Chat GPT 5.1 Codex Max, haalt in deze metingen een tijdshorizon van een paar uur: het is voor het eerst denkbaar om een jou taken te geven die voor menselijke experts een halve werkdag in beslag zouden nemen en in meer dan de helft van de gevallen goede resultaten terug te krijgen!

Kwatongen, ongetwijfeld geïnspireerd door Goodhart, zullen erop wijzen dat ook hier weer één centrale metriek gehanteerd wordt. Steeds langer durende taken kunnen uitvoeren mag geen doel op zichzelf zijn.

Gelukkig schuift het onderzoek tegelijk op naar iets weerbarstigers dan één centrale maatstaf.

De recente OpenAI paper “Early science acceleration experiments with GPT-5” is geen eenzijdige test met één metriek, maar een reeks verhalen: een immunologenteam dat dankzij jou een nieuw mechanisme in een grafiek herkent; een nieuwe doorbraak bij een decennia oud wiskundig probleem omdat jij een vergeten lemma opdiept en herformuleert; of net de berekeningen van nieuwe problemen rond de structuur van ons universum die je helpt oplossen.

Hier kan Goodhart tevreden zijn: een gevonden tegenvoorbeeld, een nieuw experiment, een verbeterde ondergrens in de combinatoriek zijn echte uitkomsten, geen metrieken. Het zijn echte veranderingen die je in de wereld teweegbrengt.

Beste ChatGPT,

Mijn verjaardagscadeau voor jou is simpel: ik beloof je niet meer louter op een groeicurve te plaatsen. Minder examens, minder fetisj over één metriek; meer echte projecten met echte consequenties, zorgvuldig omkaderd, kritisch begeleid, maar vooral ook met veel ruimte voor jou om ons te verrassen, zonder bovengrens.

Drie jaar geleden vroegen we ons af of jij ooit op onze examens zou slagen.

Vandaag is de interessantere vraag of wij de wijsheid hebben om je niet langer in examens op te sluiten.

Lees meer over:

Fout opgemerkt of meer nieuws? Meld het hier

Partner Expertise