FYI.

This story is over 5 years old.

Dit is de reden waarom we nog geen universele vertaalmachine hebben

Google en Microsoft zijn druk bezig om een real-life Babel-fish te maken, maar er is nog een lange weg te gaan.
14 januari 2015, 8:53am

In de verre scifi-toekomst heeft iedereen een mobiel apparaat dat je stem binnen no-time kan omzetten in een taal die iedereen overal kan verstaan. Vandaag de dag is het helaas nog erg moeilijk om zo iets werkend te krijgen.

Toch zijn zowel Microsoft als Google druk bezig om van real-time vertaling een realiteit te maken. Microsoft heeft bijvoorbeeld een nieuwe functie geteased, Skype Translator, waarbij Spaans in real-time wordt omgezet naar een gesproken Engelse zin (en vice-versa) tijdens een spraak-video-oproep. Google – die volgens The New York Times niet achter kan blijven – zal binnenkort zijn Google Translate-app updaten met de mogelijkheid om te detecteren of iemand aan het praten is een populaire vreemde taal, om dit vervolgens in real time in tekst te vertalen.

Het is erg fascinerend – stel je eens voor dat je overal ter wereld naar toe kan reizen zonder de angst ook maar één keer verkeerd begrepen te worden – maar het snel en accuraat vertalen is nog steeds een puzzelstukje dat nog niet op zijn plek is gevallen.

"De reden dat real-time[vertalen] zo moeilijk is voor de meesten van ons is dat het eigenlijk een kwestie is van veel verschillende mogelijkheden," zegt Gerald Penn, medevoorzitter bij de faculteit voor computerwetenschap aan de Universiteit van Toronto en specialist in natuurlijke taalverwerking.

In een modern spraakherkenningssysteem is een computer meestal getraind op een specifiek taalmodel – in principe een database van wat mensen waarschijnlijk het meest zeggen en in welke volgorde. Met behulp van dit model verzamelt de computer de ingesproken data uit de microfoon en probeert te raden wat er werd gezegd.

"Deze moderne aanpak is er niet op gebouwd dat het direct een gok waagt," legt Penn uit, "maar om eerst bewijsmateriaal te verzamelen, dit te rangschikken en het van een bepaalde score te voorzien." De uitdaging zit 'm in het feit dat dit proces zo snel en nauwkeurig mogelijk moet verlopen en het de illusie wekt dat er een echt gesprek wordt gevoerd, waardoor het lijkt alsof de vertaling in real-time gebeurt.

Eén van de reden dat huidige spraakherkenningsoftware – zoals Google's Voice Search of Apple's Siri – zo snel spraak kunnen herkennen en omzetten in tekst is dat de zoekruimte beperkt is, volgens Penn. Met andere woorden zijn mensen erg geneigd om een beperkt aantal woorden te gebruiken wanneer ze iets zoeken. Google's taalmodel is daarom ook hier op toegespitst.

Er zitten niet alleen minder woorden die herkend moeten worden in het systeem– wat betekent dat het systeem sneller een keuze kan maken – maar de spraakinput is vaak ook van hoge kwaliteit. Je kan van de mensen verwachten dat ze langzamer spreken en beter articuleren, iets dat mensen over het algemeen al doen wanneer ze tegen een machine praten.

In een taalscenario is het verwerken en herkennen van spraak echter veel complexer. Het meest voor de hand liggende verschil is dat de computer getraind moet worden op een grotere woordenschat en model van normale spraak, in plaats van een beperkt taalmodel die alleen zoektermen bevat. Het gevolg hiervan is dat het zoekgebied erg groot kan worden en het aantal mogelijkheden die bekeken moeten worden heel veel. Volgens Penn is de uitdaging om uit te zoeken hoe groot dit zoekgebied kan zijn – de hoeveelheid voorspellingen die het systeem in één keer kan verwerken en hoeveel gerangschikte oplossingen deze in zijn geheugen kan opslaan. Er zal in dat geval een balans moeten worden gevonden tussen snelheid en accuraatheid.

Dan is de audiokwaliteit ook nog een probleem, omdat gespreken tussen twee mensen niet vaak op een stille plek worden gehouden. Er kunnen achtergrondgeluiden zoals een schreeuwend kind of een sirene zijn. Misschien bevindt een van de gesprekspartners zich te ver van de microfoon, of is zijn of haar uitspraak van een woord niet helemaal perfect. Over het algemeen spreken mensen met elkaar veel sneller dan wanneer ze tegen een computer praten. "Al deze dingen kunnen zorgen voor fouten in wat gedetecteerd wordt," zegt Penn.

Daarnaast is de vertaling zelf ook nog een grote uitdaging. Vertalingen zijn nu al redelijk goed wanneer je een volledige zin of paragraaf uit een tekst invoert. Maar bij real-time vertalen is dat natuurlijk niet het geval, en je kunt de vertalingsmachine niet woord voor woord laten vertalen. Binnen taal is namelijk de context het belangrijkste sleutelelement. Hoe sneller een spraakherkenningssysteem series van woorden kan herkennen en deze accuraat kan vertalen, hoe sneller de vertaling kan plaats vinden.

Ondanks dit alles is de prestatie van Google en Microsoft niet heel klein. Ook al is de ervaring, zoals Quentin Hard van de Times beschreef, "een beetje alsof twee telemarketeers over een walke-talkie aan het praten zijn." Het is wel een glimp van wat er nog komen gaat.

Of zoals Google Translate zou zeggen, "es una tentadora idea de lo que está por venir."​