"Fruit kan niet vliegen"

Bart Vandormael

21-12-1999, 23:00 Bijgewerkt op: 20-01-2021, 16:09 10 min leestijd

Jo Lernout en Pol Hauspie, over hoe het na twaalf jaar eigenlijk nog allemaal moet beginnen.

De taxichauffeur verliest bijna de controle over het stuur en overweegt even zijn wagen aan de kant te zetten. De vraag, op weg naar de Flanders Language Valley, was: lééft het technologisch avontuur van Jo Lernout en Pol Hauspie hier in het Ieperse, wordt erover gesproken onder de mensen? Ja dus. “Het is de eerste keer dat bij ons zo’n grootschalig bedrijvencomplex uit de grond wordt gestampt”, klinkt het enthousiast. De taxichauffeur bevestigt wat de twee vermaarde spraaktechnologen zelf vaak benadrukken: ze willen iets terugdoen voor de streek. Voor werkgelegenheid zorgen. De horeca laten floreren. De economie aanzwengelen.

Jo Lernout en Pol Hauspie waren aanvankelijk concurrenten van elkaar. De eerste verkocht informatietechnologie voor Wang, de tweede runde zijn eigen softwarebedrijfje met min of meer dezelfde producten. De afspraak was: wie een klant wegkaapt voor de neus van de andere, moet in het weekend een pint trakteren. En zo groeide het plan om samen een bedrijf op te richten.

Spraaktechnologie was twaalf jaar geleden, toen jullie ermee begonnen, nog een vaag begrip. Hadden jullie Het Licht gezien?

Lernout: Wij niet alleen. Er waren wel meer mensen in de branche die dachten dat computers vroeg of laat spraak zouden herkennen en begrijpen. Artificiële intelligentie hoefde niet meer te worden uitgevonden.

Hauspie: We hadden wel de overtuiging: de ontwikkeling van spraaktechnologie kan ons heel ver brengen. Ook twaalf jaar later hebben we trouwens nog steeds het gevoel dat we pas aan het begin staan van wat we willen bereiken.

Jullie hebben L&H ooit samengevat als tien jaar tegenslagen en overwinningen.

Lernout: Tegenslag was er omdat we meer investeringen nodig hadden dan voorzien. Bovendien brak de markt voor spraaktechnologie veel later open dan we hadden verwacht. Gelukkig behaalden we ook elk jaar mooie overwinningen. In ’93 kregen we heel wat persaandacht door links en rechts een prijs te winnen en door de participatie van AT&T in ons bedrijf, goed voor 175 miljoen frank. In ’94 slaagden we erin kleine investeerders uit Ieper en omgeving aan te trekken, wat zorgde voor de betrokkenheid van de streek. In ’95 stonden we als eerste Vlaams bedrijf op de Nasdaq-beurs, wat ons opnieuw heel wat media-aandacht opleverde. In ’96 kwamen we in het nieuws door de overname van een aantal bedrijven, in ’97 was er de intrede van Microsoft en in ’98 begon dan de bouw van Flanders Language Valley, de campus.

Flanders Language Valley zorgt voor extra werkgelegenheid en een bloei van de plaatselijke economie. Maar jullie trekken veel personeel van buiten de streek aan, terwijl heel Ieper dacht hier werk te kunnen vinden.

Hauspie: Wij proberen zoveel mogelijk jobs te creëren voor eigen streek, maar wij zien dat onze mensen van overal komen. Hoe dan ook, de streek profiteert altijd mee. Want ons personeel gaat ’s middags in de restaurants eten, de hotelbezetting stijgt, jonge werknemers komen hier met hun lief wonen… De streek wordt rijker.

Lernout: Zo’n zeventig procent van de werknemers van L&H Speech Products en Flanders Language Valley komt uit Ieper, Poperinge en omgeving. Alleen, wegens de gespecialiseerde materie is het niet altijd eenvoudig om de juiste mensen aan te trekken. Vandaar ook dat we hier een trainings- en bijscholingscentrum hebben opgestart. Nu, we hebben niet uitsluitend topspecialisten nodig, er zijn ook veel ‘gewone’ jobs. Het uitwerken van de technologie kan overgelaten worden aan mensen met een hogere opleiding, in sommige gevallen is zelfs een diploma secretariaat voldoende. Om stemmen te beluisteren en te klasseren, bijvoorbeeld. We vinden dus genoeg bevoorrading van grijze hersenmassa in eigen streek.

Hoeveel studenten en cursisten telt jullie opleidingscentrum?

Lernout: Meer dan driehonderd mensen hebben bij ons al een opleiding in een of andere richting gevolgd. En dat aantal neemt elk jaar toe. Er is plaats voor 650 cursisten. Informatici wordt geleerd hoe ze taalkundige regels moeten invoeren in de computer, taalkundigen wordt geleerd hoe ze hun taalkundige kennis kunnen vertalen in informatica.

Als we onze pc aanzetten, verschijnt Windows op het scherm. Microsoft zegt: hallo, hier zijn we. Aan de zijkant van het scherm plakt een sticker met daarop Intel Inside. Wordt L&H ook een van die toonaangevende merknamen?

Lernout: De markt is heel breed, in die zin dat onze producten niet alleen in de pc passen, maar ook in de auto, de gsm en het tv-toestel. Onze ambitie is dat zoveel mogelijk van die toestellen worden uitgerust met onze taal- en spraakintelligentie. Het houdt niet op bij pure spraakherkenning, het gaat werkelijk om een soort intelligente agent die wordt ingebouwd in een toestel. Die agent begrijpt niet alleen welke woorden je uitspreekt, maar ook wat je bedoelt. Bovendien doet hij dienst als zoekmachine op Internet. En dankzij machinevertaling word je ook nog eens bediend in je eigen taal. Dat wordt dan niet Intel Inside, maar L&H Empowered of zoiets.

Ondanks de hype is spraaktechnologie nog altijd niet doorgebroken. Wanneer komt het er nu eindelijk van?

Lernout: De software om tekst te dicteren en opdrachten te geven aan de computer, begint nu te lopen. Dankzij de lage prijs van zo’n pakket en dankzij het feit dat alle nieuwe computers krachtig genoeg zijn om de software te ondersteunen, gaat die verkoop alleen maar stijgen. Vandaag is één procent van de pc’s uitgerust met spraaktechnologie, volgend jaar halen we hopelijk drie tot vijf procent. Even belangrijk: de groei doet zich ook voor op andere platforms. Spraaktechnologie in het televisietoestel wordt heel belangrijk. De helft van de vandaag verkochte navigatiesystemen voor de wagen, wordt via spraak bediend. Koop je een Ericsson-mobilofoon, dan zit daar spraakherkenning in. Niet veel, maar het is een begin. In 2000 gebruikt vijf procent van de mensen spraakherkenning, in 2001 tien procent, in 2005 vijftig procent.

De toekomst is aan de tv, zo lezen we overal.

Lernout: We werken samen met bedrijven die set-top boxes maken, een platte doos die bovenop het tv-toestel komt te staan en waarin een heel krachtige computer zit. Die box verbindt de tv via de kabel met Internet. Het grote voordeel: de hoge transmissiesnelheid van de kabel, zodat informatie van Internet sneller kan worden ingeladen. Binnen enkele jaren hebben we allemaal zo’n box in huis. Een andere evolutie die snel ingang zal vinden, is de goedkope huiscomputer die allerlei toestellen in het hele huis bestuurt. De pc zoals we die nu kennen, moet aan belang inboeten. Nou ja, ik weet niet of je dat zo mag stellen, want het aantal pc’s stijgt sneller dan ooit. Van 120 miljoen stuks vandaag gaan we vrij snel naar tweehonderd miljoen en vijfhonderd miljoen aan het einde van het volgende decennium. Daarnaast zullen er echter zo’n achthonderd miljoen gsm’s op de markt zijn, allemaal verbonden met Internet. Plus zeshonderd miljoen tv-toestellen, ook verbonden met Internet, via de net genoemde set-top box. De computer krijgt ook in de auto een plaats. Samengevat: over zes à zeven jaar zijn er meer dan een miljard gebruikers van een computersysteem. Dus meer dan een miljard potentiële klanten van L&H. We bouwen aan een grote toekomst.

Wanneer wordt spraaktechnologie de regel en het toetsenbord de uitzondering?

Lernout: Zo mag je dat niet stellen. Spraak wordt zonder twijfel de enige interface voor de computer in de auto, omdat de bestuurder zijn handen moet kunnen vrijhouden om te sturen. Spraak zal ook de tv-markt inpalmen, omdat een mens niet graag tv kijkt met een toetsenbord op schoot. En ook de gsm zal zich via spraak laten bedienen, omdat het toestel gewoon geen plaats biedt voor een toetsenbord. De pc zal echter altijd geleverd worden met een toetsenbord, al was het maar omdat je af en toe dingen wil opschrijven zonder dat iedereen kan meeluisteren.

Kan ik straks dit interview uitschrijven zonder het te moeten uitschrijven?

Lernout: Je eigen stemopname kan je nu al door de computer in tekst laten omzetten. Via spraaktechnologie die zich instelt op jouw specifiek stemgeluid, dialect, enzovoorts. De beperking is: het programma kan alleen jouw stem aan. Software die om het even welke stem meteen herkent, en dus geen inlooptijd vereist, moet pas over drie à vier jaar worden verwacht.

Over enkele jaren wordt het mogelijk om een telefoongesprek te voeren met een Japanner, waarbij ieder in de eigen taal spreekt en de computer voor simultaanvertaling zorgt. Eerst zien en dan geloven: die technologie haalt wellicht vlot een betrouwbaarheid van negentig procent, maar hoe zit het met die laatste tien procent waar we ons blauw aan ergeren?

Lernout: Terechte opmerking. Dankzij real-time-vertaling valt de taal weg als barrière voor communicatie, maar tijdens een gesprek tussen Jeltsin en Clinton over een gevoelig punt op de agenda, zou ik toch een menselijke tolk aanraden. Spraaktechnologie staat nog niet zo ver dat ze elk woord in alle omstandigheden met de juiste nuance begrijpt. Dus honderd procent betrouwbaarheid: neen. Maar je kan wel een gesprek voeren met iemand die een andere taal spreekt. En dat is toch al heel wat. In Japan iemand naar de weg vragen: geen probleem.

Wat staat onfeilbaarheid in de weg?

Lernout: Om gesprekken of monologen te begrijpen, gaan wij mensen niet alleen uit van specifieke taalkundige wetmatigheden, maar passen we ook veel omgevingskennis toe. We kennen de regels van de taal, maar we kennen ook de context. De computer vertrouwd maken met die context, vergt enorm veel werk. We moeten hem immers zoveel mogelijk kennis inlepelen. Oftewel, data invoeren. Dat is meer een kwestie van mankracht dan van technologische ontwikkeling. We hebben momenteel meer dan twaalfhonderd linguïsten die niets anders doen dan zulke data invoeren, voor verschillende taalgroepen. Dat moeten er nog veel meer worden.

Wordt de computer ooit slim genoeg om iedereen in alle omstandigheden te begrijpen?

Lernout: Zelfs als de computer bijna honderd procent betrouwbaarheid haalt en meer parate kennis bevat dan gelijk welk mensenhoofd – ooit bereiken we dat niveau -, dan nog zullen er situaties zijn waarin we de mens nodig hebben als tolk. Omdat een computer, zelfs al vertoont hij bepaalde karakteristieken van een zelfbewust levend wezen, een andere subjectieve leefwereld heeft. Want hij heeft andere organen. Per definitie is de subjectieve psychologie van een computer anders dan die van de mens. De computer blijft een alien.

Een van uw voorbeelden om het probleem van interpretatie te schetsen: ‘Ich habe Liebe genossen in Moskou’ – ‘Ich habe liebe Genossen in Moskou’. Kan een computer ooit zulke dubbelzinnigheden ontcijferen, als dat zelfs voor de mens vaak moeilijk is?

Lernout: Veel hangt af van de context waarin zo’n zin voorkomt. Als je die zin isoleert, is het voor de computer – net zoals voor de mens – onmogelijk om te bepalen wat de spreker bedoelt. Maar als de computer bij de transcriptie van de zin rekening houdt met de vorige zin, kan hij de betekenis wel afleiden. Een bekende quote van de Marx Brothers luidt: fruit flies like a banana. Om die zin goed te begrijpen, moet je weten dat fruit niet kan vliegen. Ooit zal een computer dat ook daadwerkelijk weten, nadat wij de juiste data hebben ingevoerd. Een kind weet echter dat fruit niet vliegt, zonder dat iemand het ooit verteld heeft. Zulke kennis zit in ons hoofd, doordat onze hersenen heel wat deducties maken die een computer niet uitvoert. Een euvel dat wij in de spraaktechnologie omzeilen door de computer heel veel kennis in te lepelen. Meer bepaald, door aan elk woord eigenschappen en relaties toe te kennen. We omschrijven wat een banaan is, we bouwen een semantisch netwerk op. Een voorbeeld: Java kan een computerprogrammeertaal zijn, maar ook een eiland in Indonesië, of koffie. En wat is koffie precies? Dat moeten we ook precies beschrijven. Het is een monnikenwerk om al die gegevens in te voeren, maar zodra ze in de computer zitten, wordt die wel verdikke slim. Hoe meer data, hoe beter. There’s no data like more data. Niet dat de computer zelf kan redeneren, maar hij wordt een kei in het interpreteren, hij geeft intelligente antwoorden als ik hem een vraag stel.

En kan hij dan ook zinnen afmaken die wij halverwege afbreken, zoals we vaak doen in de gewone omgang?

Lernout: Meer nog, aan de Hopkins-universiteit heeft men een Joke Analysis & Predicition Engine ontwikkeld, die zelf mopjes brouwt. In de trant van: a frequent killer with fibre: a cereal killer. Ray Kurzweil (Amerikaanse futuroloog en technoloog) stelt op zijn website een zelf ontwikkelde gedichtenmachine voor: je tikt een woord in en de computer maakt er een gedicht rond. Een haiku, die aan bepaalde regels en regelmaat voldoet. Wel, daar komen dus prachtige gedichten uit voort. Je krijgt er tranen van in je ogen, als je dat leest. Idem dito voor muziek: de computer is heel bedreven in het componeren van muziek waar een bepaalde regelmaat in zit. Een tijd geleden was er een speciaal concert waarbij een orkest een stuk van Bach speelde, een stuk à la Bach van een hedendaagse componist en een stuk à la Bach van een computer. Wel, het publiek koos het computerwerk als het mooiste van de drie.

Hoe reageert een spraakprogramma als ik uit domheid “slaapte” dicteer in plaats van “sliep”? Die taalfout zit wellicht niet in het vocabularium opgenomen.

Lernout: De huidige dicteerprogramma’s herkennen wel het verschil tussen commando’s en gedicteerde tekst, maar beschikken niet over een semantisch kader. Je zou dat kader kunnen invoeren, technisch gezien, is zoiets perfect mogelijk, maar de computer zou er wel sterk door vertragen wegens tekort aan processorkracht. Daarom passen we een eenvoudig trucje toe, dat we trouwens ook in onze hersenen gebruiken: frequentiemodellen. Die modellen bepalen onder andere dat we meestal “ik vlei me neer” verstaan en slechts zelden “ik vlei meneer”. Hoewel die twee zinnen identiek hetzelfde klinken, doelt de spreker zelden op de tweede betekenis. We gebruiken dus niet ons logisch denkvermogen als we naar iemand luisteren, maar gaan uit van frequenties. Zouden we dat niet doen, dan zouden we na vijf minuten luisteren doodvermoeid zijn.

Om op je vraag terug te komen: “slaapte” zal het programma niet herkennen, dus splitst hij het woord wellicht in “slaap” en “te”. Het resultaat zal in ieder geval niet stroken met de logica en de normale zinsbouw. Die fout herkent de computer wel, maar als hij geen logische “oplossing” vindt, grijpt hij naar het woord of de zinsbouw die het dichtst mogelijk in de buurt komt bij een goede oplossing. Naast een grammaticale ook een nonsenscontrole uitvoeren, vereist veel processorkracht. Dan zou je al een supercomputer in huis moeten hebben. Het goede nieuws: binnen vijf jaar zullen die supercomputers evenveel kosten als een pc nu.

Iets anders: een goede indicatie van innovatie is het aantal patenten dat een bedrijf in handen heeft.

Lernout: Wij hebben er zo’n honderd. Daar zitten er heel belangrijke tussen. Op het vlak van codering van spraak, om die in kleine chips te stoppen. Op het vlak van de verwerking van stemsegmenten en spraaksynthese. Of op het vlak van automatische vertaling.

Microsoft heeft een participatie van zestig miljoen dollar in L&H, maar werkt tegelijk aan een eigen spraakherkenningsmodule Whisper. Hoe zit dat eigenlijk?

Lernout: Reeds voor de participatie van Microsoft in ons bedrijf, wisten wij van het bestaan van Whisper. We waren ook niet verrast. Die technologie heeft zoveel toekomstperspectief, dat het ondenkbaar zou zijn dat Microsoft er geen aandacht aan besteedt. Dus hebben we gezocht naar manieren om elkaar te helpen. Bijvoorbeeld: als wij Microsoft linguïstieke componenten leveren, kunnen zij die snel in hun besturingssysteem steken. Goed voor hen én goed voor ons. Wij kunnen nooit in ons eentje de doorbraak van spraaktechnologie forceren, Microsoft daarentegen bekeert de hele wereld in één slag.

De onontgonnen bron voor spraaktechnologie is Japan en China. Zijn jullie programma’s en producten compatibel met die talen?

Lernout: Ja. Voor Mandarijn, de grootste taalgroep ter wereld, werkt onze technologie fantastisch. Hoewel dat een tonale taal is, die dus op een totaal verschillende manier in elkaar zit. Onze technologie is toepasbaar op álle 6400 bekende talen van de wereld. En inderdaad, de hele Asia Pacific, wat vroeger het Verre Oosten werd genoemd, ligt vol opportuniteiten. Men staat daar nog niet zover met dit soort toepassingen, dus kunnen zij applicaties bouwen op basis van onze technologie. Waarom het wiel opnieuw uitvinden, nietwaar.

Als grote oosterse bedrijven bepaalde spraaktechnologieën willen ontwikkelen, is de kans zelfs groot dat ze langs L&H moeten passeren. Net wegens jullie patenten.

Hauspie: Ons patentenportfolio is inderdaad een van onze troeven. Zelfs in het hypothetische scenario dat we Asia Pacific links laten liggen, gaan we daar succes hebben. En geloof maar dat we strikt toekijken op de naleving van die patenten. We hebben zeven of acht gespecialiseerde advocaten in dienst die zich voltijds over die materie buigen. We laten niet op onze kop zitten.

Bart Vandormael

Reageren op dit artikel kan u door een e-mail te sturen naar lezersbrieven@knack.be. Uw reactie wordt dan mogelijk meegenomen in het volgende nummer.