FYI.

This story is over 5 years old.

Tech

Er zijn 'shitloads' aan risico's bij vertalingen door computers

Computers kunnen prima vertalen, maar verwacht nooit een vlammende literaire vertaling.

Jaren geleden, op een vlucht van Amsterdam naar Boston, zaten twee Amerikaanse nonnen rechts van me te luisteren naar een spraakzame Nederlandse jongen die Amerika ging ontdekken. Hij vroeg de nonnen waar ze vandaan kwamen. Helaas lag Framingham in Massachusetts niet op zijn route, maar hij had 'shitloads of time' en zou 'shitloads of other places' bezoeken.

De vrolijke Nederlanders had blijkbaar begrepen dat 'shitloads' een kleurrijk synoniem was voor het saaie 'lots'. Hij had de syntax van het Engels onder de knie, en een flink vocabulair, maar het ontbrak hem aan ervaring om te bepalen welke woorden gepast zijn bij bepaalde sociale situaties.

Advertentie

Deze herinnering schoot me te binnen toen ik het nieuws zag dat Google Translate zou gaan werken met een neuraal netwerk in plaats van een systeem gebaseerd op zinnen. Beide methodes vertrouwen op het trainen van de machine met een 'corpus' van zinnenparen: een origineel en een vertaling. De computer genereert daarmee regels om de meest waarschijnlijke woordvolgorde af te leiden voor een vertaling.

Het komt neer op een oefening in patroonherkenning. Soortgelijke patroonherkenningsalgoritmes worden gebruikt om de lettergrepen te interpreteren als je Siri vraagt om waar je koffie kan drinken, of als een foto-app een gezicht automatisch tagt. De machine 'begrijpt' geen gezichten of locaties; het reduceert ze tot vectoren of cijfers en verwerkt ze.

Ik ben een professionele vertaler en heb zo'n 125 boeken uit het Frans vertaald. Je zou dus kunnen verwachten dat ik kwaad zou worden van Googles claim dat hun nieuwe vertalingsengine bijna even goed is als een menselijke vertaler – de machine scoort een 5.0 uit 6, waar mensen gemiddeld 5.1 scoren. Maar ik heb ook een PhD in wiskunde en heb software ontwikkeld die Europese kranten in vier talen 'leest' en de resultaten groept per onderwerp. In plaats van op mijn achterste poten te gaan staan over de mogelijkheid om vervangen te worden door een robot, ben ik me bewust van de ongelofelijke dingen die machines kunnen, en vol bewondering voor de technische complexiteit en virtuositeit van het werk van Google.

Advertentie

Mijn bewondering verblindt me echter niet voor de tekortkomingen van machinevertalingen. Denk aan de jonge Nederlander die 'shitloads' aan Engelse kende. Zijn vloeiende Engels toonde dat zijn 'wetware' – zijn levende neurale netwerk, als je wil – goed genoeg getraind was om de subtiele regels die taal natuurlijk maken aan te voelen. Computertalen hebben daarentegen context-vrije grammatica. Bij de Nederlander ontbrak echter de sociale ervaring met Engels om de subtielere regels die de dictie, toon en structuur van een moedertaalspreker bepalen. Iemand die opgroeit met Engels kan die regels overtreden voor dramatisch effect. Als ik tegen een paar nonnen 'shitloads of places' zeg in plaats van 'lots of places', zou ik daarmee iets bedoelen. De Nederlander was hier echter onbewust van en dus onbedoeld komisch.

De vertalingsengine van Google is getraind op corpora die komen van nieuwsbronnen tot Wikipedia. De kale omschrijving van elk corpus is dus de enige indicatie van de context. Uit die gebrekkige informatie is het moeilijk om af te leiden of een woord als 'shitloads' gepast of ongepast is. Als ik dat woord naar het Frans zou vertalen, levert de machine een goede match met beaucoup of plusieurs. Dit zou de betekenis van het woord overbrengen, maar niet de komische lading die het woord meekrijgt als je het ongepast gebruikt in plaats van het neutrale plusieurs. Het maakt niet uit hoe geavanceerd het algoritme is, het is afhankelijk van de informatie die het gevoerd wordt. Dingen als context, vooral sociale context, zijn ongelofelijk moeilijk om over te brengen in code.

Advertentie

Neem het Franse petite phrase. Phrase kan 'uitdrukking' of 'zin' betekenen in het Engels. Als Marcel Proust het in een muzikale context gebruikt in zijn roman À la recherche du temps perdu gebruikt in de zin 'la petite phrase de Vinteuil', dan moet het 'uitdrukking' betekenen, omdat 'zin' niet klopt. Google Translate (de oude, op zinnen gebaseerde versie) doet dit opvallend goed. Als je alleen petite phrase invoert, geeft het 'korte zin' weer. Als je la petite phrase de Vinteuil invoert, geeft het 'Vinteuil's little phrase,' zoals in de vertaling van het werk van Proust. De zeldzaamheid van de naam 'Vinteuil' geeft de nodige context, wat het statistische algoritme houvast geeft. Maar als je la petite phrase de Sarkozy invoert, geeft Translate 'little phrase Sarkozy' in plaats het correcte 'Sarkozy's uitbrander' – in de politieke context die aangegeven wordt door de naam van de voormalig president, is une petit phrase een vinnige opmerking die gericht is aan een politieke rivaal. De naam Sarkozy verschijnt in zoveel verschillende zinnen dat het statistische algoritme de betekenis niet oppakt – wat leidt tot een vertaalflater.

Het probleem is – net als met alle pogingen om AI te bouwen – dat intelligentie ongelofelijk complex is. Intelligent zijn is niet alleen de mogelijkheid hebben om logische gevolgtrekkingen te maken uit regels, of statistisch uit regelmatigheden. Je moet weten welke regels gelden, waarvoor kennis en gevoel voor situatie nodig is. Programmeurs zijn vindingrijk, maar niet vindingrijk genoeg om te anticiperen op de enorme variatie in context waaruit betekenis voortkomt. Zo missen de beste algoritmen dingen – zoals Henry James het stelde, is de ideale vertaler een persoon die niets over het hoofd ziet.

Dat betekent niet dat machinevertalingen niet nuttig zijn. Veel vertaalwerk is gewoon routinewerk. Soms leveren machines prima werk op. Verwacht echter geen mirakel, of prachtige literaire vertalingen, of treffende politieke uitbranders. AI wordt al sinds de begindagen geplaagd door overmoedigheid. Ik zeg dit niet omdat ik vrees voor mijn baan: ik ben gepensioneerd vertaler en stop het meerendeel van mijn tijd in het schrijven van code.

Arthur Goldhammer is een schrijver, vertaler en blogger over Franse politiek. Hij heeft meer dan 120 boeken uit het Frans vertaald, waaronder Thomas Pikettys Kapitaal in de 21ste Eeuw.

Dit artikel verscheen oorspronkelijk bij Aeon en is opnieuw gepubliceerd onder Creative Commons.