FYI.

This story is over 5 years old.

Tech

Tumeurs et tremblements : les dangers de la traduction automatique

« Plutôt que de m’inquiéter de la perspective d’être un jour remplacé par une machine, je préfère m’émerveiller devant les capacités de la nouvelle génération de programmes de traduction. »

Il y a quelques années, sur un vol Amsterdam-Boston, deux nonnes américaines assises à ma droite écoutaient religieusement un jeune hollandais volubile, dont c'était le premier voyage sur le continent américain. Le type avait de nombreuses questions en tête, et ne se privait aucunement de les poser. Il demanda à ces dames, entre autres, quelle était leur destination. Hélas, à son grand regret, Framingham (Massachussetts) ne faisait pas partie de la liste des villes qu'il avait l'intention de visiter. « Si j'avais des tonneaux de temps, je visiterais des tonneaux d'endroits, » conclut-il alors, morose.

Publicité

Ce personnage jovial croyait de toute évidence que « tonneaux » était un adverbe intensif qui pouvait avantageusement se substituer à « beaucoup », « plein », ou encore « des tonnes ». Il maitrisait plus ou moins la syntaxe de notre langue, disposait de toute évidence d'un vocabulaire plutôt étendu. Malheureusement il n'avait pas l'expérience suffisante pour comprendre quels mots étaient appropriés à tel ou tel contexte, et quels mots étaient destinés à un usage métaphorique ou satirique.

Ce souvenir m'est revenu immédiatement lorsque j'ai appris que le moteur de Google Translate allait abandonner son ancien système, exploitant une base de données de phrases, au profit d'un système appuyé par des réseaux de neurones. (Les différences techniques sont décrites ici.) Les deux méthodes reposent sur l'entrainement d'une machine sur un « corpus » composé de paires de phrases : la phrase d'origine et sa traduction. La machine génère ensuite une série de règles d'inférence, et à partir de la séquence de mots du texte d'origine, elle déduit la séquence de mots la plus probable dans la langue cible.

Cette opération consiste en fait à faire correspondre des patterns linguistiques. Des algorithmes similaires sont utilisés pour interpréter les sons que vous prononcez lorsque vous demandez à votre smartphone de calculer un temps de trajet dans Paris, ou lorsqu'une application photo tag le visage d'un de vos potes. La machine ne comprend ni les visages, ni les destinations ; elle les réduit à des vecteurs de nombres, puis effectue les calculs qui s'imposent.

Publicité

Je suis traducteur professionnel. J'ai traduit 125 livres écrits en français. On pourrait donc s'attendre à ce que je sois terrifié par l'annonce de Google selon laquelle son nouveau moteur de traduction égalerait un traducteur humain (ses traductions sont notées en moyenne 5.0 sur une échelle de 0 à 6, tandis que les traductions des humains sont notées 5.1 en moyenne). Cependant, je possède également un doctorat de mathématiques, et j'ai développé un logiciel qui « lit » les journaux européens écrits dans quatre langues différentes, puis en classe les articles par thème. Aussi, plutôt que de m'inquiéter de la perspective d'être un jour remplacé par une machine, je préfère m'émerveiller devant les capacités de la nouvelle génération de programmes de traduction. Je suis également plein d'admiration pour la complexité technique et la virtuosité du travail des ingénieurs de Google.

Mon admiration ne m'empêche pas d'être préoccupé par les conséquences de la généralisation de la traduction automatique, cependant. Pensez au jeune voyageur hollandais qui connaissait des « tonneaux » de français. Son habileté à converser montre que son « wetware » - son cerveau, ou son réseau de neurones biologique, si vous préférez - a été suffisamment bien entraîné pour lui permettre d'intégrer les règles subtiles (et les exceptions) d'une langue naturelle qui n'est pas sa langue maternelle. Les langages informatiques, à l'inverse, possèdent une grammaire non contextuelle. Le jeune Néerlandais ne possédait pas une expérience sociale anglophone suffisante pour saisir les règles fines qui façonnent la diction, le ton et la structure du discours d'un locuteur natif, qui, dans certains contextes, choisit d'ailleurs de briser ces règles pour provoquer un effet particulier. De par sa connaissance imparfaite du français, notre homme s'est transformé malgré lui en comédien.

Publicité

Le moteur de traduction de Google est « entrainé » sur des corpus variés : manuels d'utilisation, articles Wikipédia, articles de presse, etc. Une rapide description du corpus en question constitue l'unique indication dont dispose le programme sur le contexte d'où provient la source. A partir de ces maigres informations, il est difficile de déduire la pertinence ou l'inadéquation d'un mot comme « tonneau » dans un contexte non spécifique. Quelle que soit le niveau de sophistication des algorithmes utilisés, ils doivent s'appuyer sur un contexte pour être en mesure de traduire correctement un discours donné. Or, ce contexte est très difficile à retranscrire sous la forme de lignes de code.

Prenez l'expression « petite phrase ». Phrase peut être traduit par sentence ou phrase en anglais. Lorsque Marcel Proust l'utilise dans un contexte musical dans son romain À la recherche du temps perdu, en disant « la petite phrase de Vinteuil », il faudrait traduire par phrase, car sentence n'aurait aucun sens. Google Translate (l'ancien système – le nouveau n'est disponible qu'en mandarin pour le moment) s'en sort très bien avec ce genre de problème. Si vous écrivez « petite phrase » hors de son contexte, il traduit par short sentence. Maintenant, si vous tapez « la petite phrase de Vinteuil » (dans le roman, le personnage est un compositeur), il traduira par Vinteuil's little phrase, pour correspondre aux traductions publiées du texte de Proust. La rareté du nom « Vinteuil » fournit aux algorithmes statistiques un contexte utile à leurs recherches. En revanche, il vous crachera « little phrase Sarkozy » au lieu de « Sarkozy's zinger » : dans un contexte politique (indiqué par la mention de l'ancien président), « la petite phrase » est l'équivalent de « la petite pique de », c'est-à-dire une remarque ironique adressée à un adversaire politique. Cependant, le nom de Sarkozy apparait désormais dans une telle variété de contextes que l'algorithme statistique échoue à déterminer lequel, ici, est le plus pertinent. Google Translate ne parvient alors qu'à produire un malheureux solécisme.

Le problème, qui a miné d'ailleurs toutes les tentatives passées de mettre au point une IA forte, c'est que l'intelligence humaine est incroyablement complexe. Être intelligent, ce n'est pas seulement parvenir à effectuer des inférences logiques à partir de règles ou de régularités statistiques. Être intelligent, c'est avant tout comprendre quelles règles sont applicables dans tel ou tel contexte. C'est posséder une certaine sensibilité aux situations, qui ne peut être totalement objectivée. Les développeurs sont certes des gens intelligents, mais ils ne sont pas tout puissants ; il leur est impossible d'anticiper la variété des contextes à partir desquels un sens est susceptible d'émerger. Dans ces conditions, même les algorithmes les plus efficaces échoueront toujours à traduire certaines phrases, puisque, comme le faisait remarquer Henry James, le traducteur idéal est celui qui « connaît tout du monde. »

Cela ne signifie pas pour autant que la traduction automatique est inutile. Après, la plus grande partie du travail du traducteur est assez inintéressante, et s'effectue selon une certaine routine. Les machines peuvent faire du bon boulot (pour traduire des textes techniques très stéréotypés, par exemple). Il ne faut cependant pas trop en attendre de leurs capacités, surtout sur des textes littéraires, critiques, poétiques, politiques. Le champ de l'intelligence artificielle a beaucoup souffert des attentes démesurées du public, des médias, et même des scientifiques et ingénieurs. À titre personnel, je ne risque plus de m'inquiéter pour l'avenir de mon job : je ne traduis plus, j'écris du code.

Arthur Goldhammer est auteur, traducteur, universitaire, blogueur, et spécialisé en politique française. Il a traduit plus de 120 ouvrages du français, dont De la démocratie en Amérique de Tocqueville et Le Capital au XXIe siècle de Thomas Piketty. Il est affilié au Centre d'études européennes de Harvard, et ses écrits sont parus dans The American Prospect, entre autres. Il vit à Cambridge, dans le Massachusetts.

Une première version de cet article a été publiée sur Aeon, puis republiée sous Creative Commons.