It was an occurrence that is true/ She was at least two or thirty three years old/ But real costs were not there/ She probably had much left in the garage. Wie de aanhef van het muzikale meesterwerk 'Vinde gij mijn gat (niet te dik in deze rok)' door Google Translate jaagt, snapt onmiddellijk waarom de sympathiekste band van Antwerpen maar niet doorbreekt in het buitenland.
...

It was an occurrence that is true/ She was at least two or thirty three years old/ But real costs were not there/ She probably had much left in the garage. Wie de aanhef van het muzikale meesterwerk 'Vinde gij mijn gat (niet te dik in deze rok)' door Google Translate jaagt, snapt onmiddellijk waarom de sympathiekste band van Antwerpen maar niet doorbreekt in het buitenland. De songteksten van de Clement Peerens Explosition mogen dan nog een werkpuntje zijn, maar voor het overige presteren computervertaaldiensten als Google Translate of Bing Translator eigenlijk opmerkelijk goed. Vooral bij vertalingen tussen de grote talen (waaronder het Nederlands) slagen vertaalmachines er steeds beter in onze taalkronkels te doorgronden. Want ook al heeft Google Translate kennelijk moeite met samentrekkingen ('twee- of drieëndertig jaar') en weet hij geen raad met een belgicisme als 'occasie', toch slaagt hij erin om een zeer idiomatische zin als 'echte kosten waren er niet aan' redelijk correct te vertalen ('real costs were not there'). Automatische vertaaldiensten maken sinds een vijftal jaren een stormachtige groei door. Google Translate biedt zijn diensten ondertussen al aan in meer dan honderd talen, en vertaalt per dag nu al meer tekst dan alle menselijke vertalers in één jaar. Op Twitter kunt u met een muisklik elk bericht onmiddellijk vertalen in een taal naar keuze. Skype heeft een applicatie waarmee anderstaligen live in je moedertaal worden vertaald, en vice versa. Op Facebook hoeft u niet langer naar de avondcursus om de zielenroerselen van anderstalige vrienden te volgen. Websites als Tripadvisor vertalen nu al automatisch miljoenen hotel- en restaurantrecensies. En een groot deel van de wetteksten van de Europese Commissie wordt vertaald met behulp van machinevertaling. Sinds eind augustus ligt de strijd voor het marktleiderschap helemaal open. Want met de Duitse DeepL Translator hebben de traditionele vertaalmachines er een te duchten concurrent bij. DeepL werkt op basis van een supercomputer in IJsland, die in staat is 1 miljoen woorden per seconde te vertalen. Het bedrijf biedt voorlopig enkel vertalingen aan tussen het Engels, Duits, Frans, Spaans, Italiaans, Pools en Nederlands, maar belooft zijn werking weldra uit te breiden naar Chinees, Arabisch en Russisch. In verhouding tot de gevestigde waarden als Google of Bing scoort DeepL momenteel opmerkelijk beter. Zelfs het behoorlijk colloquiale 'Vinde gij mijn gat niet te dik in deze rok?' vertaalt DeepL met het verbazend accurate 'Didst thou not find my hole too thick in this skirt?'. Zelfs in het Engels behoudt Antwerpse rock een rafelig randje poëzie. Het idee van machinevertaling is bijna zo oud als de computer zelf. De eerste toepassingen werden ontwikkeld tijdens de Koude Oorlog. In 1954 ontwierp Léon Dostert, de persoonlijke tolk van Dwight Eisenhouwer, samen met elektronicagigant IBM 's werelds eerste vertaalmachine. Dosterts 'Electronic Brain' bestond uit maar liefst 12 computers van elk meer dan een ton, en was in staat om een zestigtal Russische zinnetjes naar het Engels te vertalen. Toch zou het aanvankelijke enthousiasme al snel getemperd worden. De Israëlische taalkundige Yehoshua Bar-Hillel, 's werelds eerste professor Machinevertaling, concludeerde in 1959 al dat het onmogelijk zou zijn om een computer accuraat te laten vertalen. In 1966 oordeelde een Amerikaanse overheidscommissie dat vertaaltechnologie ondanks de rijkelijk vloeiende overheidsfondsen eigenlijk nauwelijks vooruitgang boekte. Aanvankelijk probeerde men computers als taalkundigen te laten redeneren. Om een computer van het Engels naar het Nederlands te laten vertalen, moesten taalkundigen de grammatica en het lexicon van beide talen uitvoerig beschrijven. Onderzoekers moesten een computer dus aanleren hoe werkwoorden vervoegd werden, welke werkwoorden transitief waren, hoe naamvallen werkten, en meervouden gevormd werden. Die knowledge-based aanpak was uiterst arbeidsintensief, en leidde zelden tot bevredigende uitkomsten. Relatief eenvoudige zinnen als 'Jan eet graag' bleken voor de oude vertaalmachines een onoverkomelijk probleem: ze wisten geen weg met idiomatische constructies als 'graag eten', omdat die zelden woord per woord vertaald kunnen worden. In het begin van de jaren 2000 kondigde zich een eerste revolutie aan. In plaats van vertaalmachines taalregels aan te leren, kozen ontwikkelaars voor een zuiver statistische aanpak. Daarbij worden vertaalmachines gevoed met gigantische corpora, waarin miljoenen vertaalde zinnen aan elkaar zijn gekoppeld. Door al die zinnen met elkaar te vergelijken, probeert de computer de intuïtie van een vertaler te doorgronden. Dat loste heel wat idiomatische problemen op. Aangezien zinnen als 'Jan eet graag' of 'Piet zwemt graag' in het corpus doorgaans als 'John likes to eat' of 'Pete likes to swim' worden vertaald, zullen statistisch opgebouwde vertaalmachines 'graag' met het werkwoord 'to like' vertalen. Opmerkelijk genoeg zijn statistische vertaalprogramma's 'dom'. Ze kennen grammaticale regel noch gebod, maar werken zuiver op basis van statistiek en probabiliteit. Toch bleek de statistische methode onnoemelijk veel beter te werken dan de computermodellen die wel grammaticale regels kregen aangeleerd. Bovendien is de statistische methode veel minder arbeidsintensief, en kan ze gemakkelijk uitgerold worden naar kleinere talen die bij het op taalregels gebaseerde model in de kou bleven. Maar de grootste evolutie voltrok zich pas enkele maanden geleden. Sinds april werkt Google Translate bij de belangrijkste talen op basis van neural machine translation. Dat is een techniek waarbij statistiek gekoppeld wordt aan artificiële intelligentie. 'Ik moet toegeven dat ik aanvankelijk sceptisch was', vertelt Walter Daelemans, professor computerlinguïstiek aan de Universiteit Antwerpen. 'Het idee om machinevertaling op te bouwen vanuit een neuraal netwerk stamt uit de jaren tachtig, maar eigenlijk geloofde niemand erin dat computers dat ooit zouden aankunnen. Deze evolutie is enkel mogelijk omdat de rekenkracht van computers exponentieel is toegenomen.' In tegenstelling tot statistische vertaalmachines, die hoogstens de onmiddellijke omgeving van een woord bestuderen, analyseren neurale vertaalmachines op zinsniveau. Ze bestuderen enorme hoeveelheden tekst die ze net als het menselijk brein opslaan in neurale netwerken. Op basis van die gigantische corpora leert de vertaalmachine zichzelf hoe je hoort te vertalen. 'Eigenlijk probeert het de ervaring na te bootsen van een doorgewinterd vertaler', zegt Daelemans. Hij vergelijkt het proces met hoe bewakingscamera's aan gezichtsherkenning doen. 'Wanneer zo'n camera een gezicht ziet, verwerkt hij die informatie in duizenden kleine deeltjes. Bepaalde neuronen herkennen bijvoorbeeld de neus, andere neuronen herkennen ogen, nog andere een mond, de oren, het voorhoofd. Door heel veel verschillende neuzen, ogen en monden bestudeerd te hebben, heeft de computer een soort archetypische voorstelling van hoe neuzen eruitzien, en kan hij zelfs een neus die hij nog nooit gezien heeft als een neus herkennen. Eigenlijk doen vertaalmachines hetzelfde met zinnen die ze nooit eerder hebben gezien: ze leren welke taaleigenschappen doorslaggevend zijn in een vertaling.' Opmerkelijk genoeg ontleden neurale vertaalmachines taal op een compleet andere wijze dan wij. 'Er zijn geen aparte niveaus voor grammatica, syntaxis of pragmatiek', zegt Daelemans. 'Het is volstrekt onduidelijk waarvoor de verschillende neuronenlagen dienen. Het doet vermoeden dat taal ook in ons brein waarschijnlijk helemaal anders is opgebouwd dan hoe wij ons dat als taalkundigen voorstellen.' Hoewel de technologie nog maar enkele maanden wordt uitgerold, zijn de resultaten nu al verbluffend. Neurale machinevertalingen zijn 25 procent accurater dan de statistische modellen, en worden nog constant verbeterd. Toch blijven er opmerkelijke kwaliteitsverschillen tussen de verschillende genres van tekst. Voor een vertaalmachine is de gebruiksaanwijzing van een drone bijvoorbeeld gemakkelijker om te vertalen dan pakweg een speech van Donald Trump, hoewel die laatste voor mensen stukken begrijpelijker is. Hoe creatiever en 'spreektaliger' de opgave, hoe moeilijker voor de computer. De voornaamste uitdaging om neurale vertaaltechnologie te verbeteren, zijn de trainingsdata waarmee de vertaalmachines gevoed worden. Hoe beter, uitgebreider en diverser die dataset is, hoe beter de vertaalmachine zal werken. 'Vertaalmachines maken het verschil door de data die ze gebruiken', zegt Jaap van der Meer, die benadrukt dat alle vertaalmachines min of meer dezelfde technologie gebruiken. Van der Meer is directeur van TAUS, een bedrijf dat een gigantische database heeft opgebouwd waarmee vertaalmachines getraind kunnen worden. Momenteel heeft de TAUS Data Cloud ongeveer 70 miljard woorden in maar liefst 2300 talenparen. Het diversifiëren van die data is een grotere uitdaging dan op het eerste gezicht lijkt. Want waar het internet vergeven is van de handleidingen en administratieve teksten die in honderden talen vertaald zijn, blijkt het veel moeilijker om data te vinden die spontaan taalgebruik documenteren. Toch zijn ook die problemen niet onoplosbaar, vermoedt Daelemans. Zo slagen deelplatformen als YouTube er nu al in om geluidsfragmenten te transcriberen. Op die manier zou elk geluidsfragment gaandeweg als data gebruikt kunnen worden. Ook ondertitels van televisieseries en films zouden een belangrijk deel van zo'n corpus kunnen uitmaken, denkt Daelemans. 'Ondertitels zijn in veel talen beschikbaar, en zouden een vertaalmachine echt kunnen helpen om spreektaal te doorgronden. Als je die zou kunnen toevoegen aan het trainingscorpus, is het in theorie mogelijk om computers spontaan taalgebruik te laten vertalen.'Die dataproliferatie kent ook zekere risico's. Zo vissen vertaalmachines na verloop van tijd in hun eigen vijver, omdat steeds meer websites hun vertalingen maken op basis van machinevertaling. Op die manier hergebruiken vertaalmachines onbewust hun eigen vertalingen, zelfs als die incorrect of ongrammaticaal zijn. Zo zouden courante vertaalfouten op den duur de algoritmes kunnen 'vervuilen', waardoor de kwaliteit van de vertalingen achteruit zou gaan. Bij statistische datamachines was dat opmerkelijk genoeg geen probleem, zegt Van der Meer. 'Die bleken altijd maar te verbeteren, zelfs wanneer het aantal "foute" vertalingen in het corpus toenam. Grappig genoeg weet niemand echt hoe dat komt. We hebben eigenlijk geen flauw idee van wat zo'n vertaalmachine doet. We kunnen enkel het resultaat beoordelen.' Bij neurale machinevertaling blijken die kromme vertaalzinnen wel een probleem. 'Neurale engines hebben "schone" data nodig, ' aldus Van der Meer. 'Ze werken nu eenmaal zoals een menselijk brein. Vergelijk het met een ouder die met zijn kind spreekt: dan hou je het ook beter netjes.' Toch kennen ook neurale vertaalmachines voorlopig nog hun limieten. 'Het blijft bijvoorbeeld heel moeilijk om een computer gezond verstand aan te leren', zegt Daelemans. 'Neem nu zinnen als 'Ik eet een pizza met ansjovis' of 'Ik eet een pizza met mijn dochter'. Voor ons is het duidelijk dat 'ansjovis' een ingrediënt is en 'mijn dochter' niet, maar voor een computer is dat zeer moeilijk te begrijpen. Een vertaalmachine is eigenlijk doofstom: ze heeft geen idee waaraan woorden als 'ansjovis' of 'dochter' in de werkelijkheid refereren.' Toch acht Daelemans het mogelijk dat computers zich ook daarin kunnen bekwamen. 'Het moet gaandeweg mogelijk worden om ook videobeelden als trainingsmateriaal te gebruiken. Zo zou een computer beter kunnen leren hoe de werkelijkheid in elkaar zit, wat het niveau van de vertalingen gevoelig kan verbeteren.' Al moet ook gezegd dat machinevertaling nog wel enkele kinderziektes kent. Zo blijken heel wat vertaalmachines seksistische en zelfs racistische associaties te maken. Waar woorden als 'directeur' of 'leerkracht' zowel op een man als een vrouw kunnen slaan, gaan statistische vertaalmachines ervan uit dat directeurs mannelijk zijn en leerkrachten 'vrouwelijk'. Voor een neurale vertaalmachine verhoudt 'man' zich tot 'dokter' zoals 'vrouw' zich tot 'verpleegster' verhoudt. Bovendien bezondigt artificiële intelligentie zich onbedoeld aan racisme. Zo bleek uit een studie van Stanford University dat blank aandoende namen als Brad of Jim nauwer geassocieerd worden met concepten als 'gelukkig' of 'zonsopgang', terwijl typisch Afrikaans-Amerikaanse namen als Leroy of Latoya steevast geassocieerd werden met woorden als 'haat' of 'braaksel'. 'Vertaalmachines zijn op zich natuurlijk niet racistisch', zegt Daelemans. 'Maar ze worden gevoed door teksten die vaak inherente vooroordelen bevatten. De realiteit die we beschrijven met ons taalgebruik is racistisch. Het algoritme neemt dat gewoon over.' Google neemt de tekortkomingen ernstig. Het heeft verschillende experts in de arm genomen om die weg te werken. Een ander probleem ligt niet bij de software, maar bij de gebruiker zelf. Vertaalcomputers kunnen immers moeilijk om met taalfouten of menselijke slordigheden. Frieda Steurs, hoogleraar taaltechnologie aan de Katholieke Universiteit Leuven, heeft het over het GIGO-principe: garbage in, garbage out. 'Als er een fout zit in de brontekst, wordt die bij een computervertaling uitvergroot. Waar het voor een menselijke vertaler redelijk gemakkelijk is om kleine taalfoutjes te corrigeren, slagen computers er vaak niet in die fout kwijt te spelen.' We hebben te veel de neiging om te focussen op de kwaliteit van de vertaling, vervolgt Steurs. 'Vaak ligt het probleem niet bij de vertaler, maar bij de brontekst. De meerderheid van de teksten in het bedrijfsleven zijn enorm slecht geschreven. Elke afdeling doet maar wat, waardoor handleidingen of marketingteksten vaak vol onduidelijkheden en inconsequenties staan.' Steurs geeft het voorbeeld van autoconstructeur BMW, die enkele jaren geleden zijn tekstenbeleid grondig op de schop nam. 'Tot enkele jaren geleden had een BMW-handleiding tot vijf verschillende benamingen voor het kinderslot of voor het anti-inbraakalarm. Een menselijke vertaler kan zoiets rechttrekken, maar een computer niet, want die gaat ervan uit dat het over vijf verschillende dingen gaat. Sindsdien heeft het bedrijf een lexicon aangemaakt waarin elk onderdeel een unieke naam krijgt, die in het hele bedrijf gebruikt wordt.' Dreigt de spectaculaire opmars van de machinevertaling voor een hecatombe te zorgen onder vertalers? Daelemans verwacht dat de neurale technologie de komende jaren nog spectaculair zal verbeteren. 'Ik vermoed dat er over tien jaar een stuk minder vertalers zullen rondlopen op de Europese Commissie. Enkel zeer specifieke genres als literaire vertalingen lijken mij buiten schot te zullen blijven.' Steurs benadrukt dat bepaalde teksten ook voor machinevertaling onhaalbaar zullen blijven. Ze geeft het voorbeeld van juridische teksten, die door hun systeemgebondenheid computers voor onoverkomelijke hindernissen stellen. 'Een notaris in België heeft immers een andere functie dan een 'notary public' in Groot-Brittannië', aldus Steurs. 'Om juridische documenten te vertalen, heeft een vertaler dus een uitgebreide kennis nodig van zowel het Belgische als het Britse rechtssysteem. Het lijkt me erg onwaarschijnlijk dat een computer dat ooit zal kunnen doorgronden.' Veel vertalers zien de evolutie met lede ogen aan. 'Ten onrechte', vindt Guillaume Deneufbourg, professor taaltechnologie aan de Universiteit van Mons en voorzitter van de Belgische Kamer van Vertalers en Tolken. Volgens hem kunnen vertalers machinevertaling ook beschouwen als een hulpmiddel dat hen in staat stelt om hun productiviteit te verhogen, en niet per se als een concurrent. 'Door de globalisering moet er steeds meer vertaald worden. Er blijft dus altijd werk voor 'echte' vertalers, maar vooral in de bovenste laag van de markt, waar klanten het hoogste kwaliteitsniveau nastreven. Vertalers zullen dus moeten bewijzen dat ze een meerwaarde vormen ten opzichte van vertaalmachines. Enkel vertalers die als een robot vertalen, zullen vervangen worden door een robot.' Ook Van der Meer is ervan overtuigd dat de uitbreiding van de machinevertaling de appreciatie voor menselijke vertaling net zal doen toenemen. 'De alomtegenwoordigheid van machinevertalingen zal de vraag naar menselijke vertalingen net stimuleren. Vertalers moeten schrijvers worden die als een soort culturele ambassadeurs hun meerwaarde bewijzen.'