Motherboard

L’IA nous force à repenser notre rapport à la vérité

Des techniques d’intelligence artificielle permettent aujourd’hui de réaliser de faux contenus audio et vidéo d’un réalisme trompeur. Un nouveau moyen de manipuler l’information ?

par Guillaume Renouard
11 Septembre 2017, 8:16am

Dans son roman La vérité avant-dernière, l'écrivain de science-fiction américain Philip K. Dick imagine un monde où la majorité de l'humanité vit recluse sous terre, tandis qu'en surface se déroule une Troisième Guerre mondiale entre deux puissances recourant massivement à des robots-soldats. Les hommes du sous-sol, chargés de la construction de ces machines, reçoivent régulièrement des séquences filmiques retraçant les dernières avancées du conflit, ainsi que des discours télévisés de leur président les incitant à redoubler d'efforts pour permettre de remporter la guerre. Tout cela n'est en réalité qu'une mascarade. Le conflit est fini depuis bien longtemps, les films de guerre et discours présidentiels envoyés aux humains enfouis sont des montages visant à les dissuader de remonter à la surface, où un petit nombre de privilégiés profitent à eux tous seuls des ressources terrestres, et mènent une existence oisive grâce aux robots construits par leurs congénères.

En 2017, la Troisième Guerre mondiale n'est pas encore à l'ordre du jour. Cependant, les techniques permettant de générer de faux contenus audio et vidéo prennent une importance croissante.

Certaines IA bien connues du grand public, comme Siri, chez Apple, ou Alexa, chez Amazon, sont déjà capables de parler. Cependant, leur voix synthétique, au timbre et au rythme peu convaincants, ressemble clairement à celle d'un ordinateur. Le processus utilisé pour leur permettre de s'exprimer offre peu de souplesse : les phrases sont construites à partir de mots préenregistrés, sur un fichier contenant l'intégralité des termes dont l'assistant virtuel peut avoir besoin pour converser avec l'utilisateur. Si l'on souhaite changer la voix de l'intelligence artificielle, il faut donc utiliser un fichier audio entièrement nouveau. Depuis Montréal, la jeune pousse Lyrebird entend changer la donne. Elle développe en effet une intelligence artificielle capable de générer des contenus audio artificiels ultra-réalistes, à une vitesse inédite.

Simulation de la voix d'Obama par l'IA de Lyrebird.

Pour cela, l'IA emploie des réseaux de neurones, ces algorithmes dont le fonctionnement est grossièrement inspiré par les neurones biologiques, et qui permettent à un logiciel d'apprendre tout seul à partir d'un large ensemble de données. Dans le cas de Lyrebird, cela signifie apprendre à imiter la voix d'un individu, simplement en écoutant des heures d'enregistrement de la voix en question. La start-up nourrit ainsi l'algorithme de fichiers audio assortis de leur retranscription à l'écrit ; fort de ces informations, le logiciel est capable d'apprendre à prononcer caractères, phonèmes et mots complets dans la voix correspondante. Une fois entraîné à parler avec cette voix, il peut générer des centaines de phrases à la seconde, avec les variations souhaitées (différentes émotions et intonations). Il peut ensuite apprendre à imiter n'importe quelle autre voix en écoutant un très court extrait audio de celle-ci. Pour illustrer le potentiel de leur technologie, Lyrebird ont ainsi diffusé sur leurs sites de faux enregistrements audio de Donald Trump et Barack Obama.

DeepMind, le département d'intelligence artificielle de Google, célèbre pour avoir conçu le logiciel AlphaGo, travaille à un programme similaire. Baptisé WaveNet, il est lui aussi capable de simuler la voix humaine en s'entraînant sur des heures d'enregistrements audio. L'Institut of Deep Learning de Baidu, dans la Silicon Valley, a légalement publié le résultat de ses recherches dans le domaine. L'entreprise Adobe est elle aussi sur le coup, et souhaite créer un « Photoshop de l'audio ».

L'IA WaveNet apprenant à parler.

Barack Obama, Françoise Hardy et les « faits alternatifs »
D'autres programmes vont encore plus loin : non contents de générer artificiellement la voix humaine, ils sont également capables de recréer le visage animé qui lui est assorti. Une curieuse vidéo YouTube, publiée en février dernier, montre ainsi une séquence de Françoise Hardy, dans ses vertes années, répondant en anglais aux questions d'une voix off l'interrogeant sur les mensonges proférés par le porte-parole de la Maison-Blanche, Sean Spicer, suite à la cérémonie d'inauguration de Donald Trump. Françoise Hardy finit par répondre qu'il ne s'agit pas de mensonges, mais de « faits alternatifs ». La vidéo est bien entendu un montage, et les mots placés dans la bouche de Françoise Hardy sont en réalité ceux de Kellyane Conway, la conseillère du président américain. Mais il ne s'agit pas d'un simple changement de la piste audio : le mouvement des lèvres correspond bel et bien aux mots prononcés. Car la vidéo n'est pas un simple détournement comme il en existe des milliers sur la toile, mais une création de l'artiste allemand Mario Klingemann. Tout comme l'équipe de Lyrebird, il a recouru à des réseaux de neurones, entraînés sur des vidéos de Françoise Hardy et de Kellyane Conway, pour parvenir à ce résultat.

Des chercheurs de l'University of Washington ont employé une méthode similaire pour générer de fausses vidéos d'Obama. Partant d'un discours prononcé par l'ancien président américain, ils ont supprimé la bande sonore et inséré à la place des bribes de discours issus d'autres vidéos, recourant à des réseaux neuronaux pour recomposer mouvements de bouche et expressions faciales afin qu'ils s'adaptent à ces nouvelles paroles. Le résultat, quoiqu'imparfait (l'ex-président semble régulièrement trop sérieux ou au contraire trop détendu par rapport à la teneur du discours qu'il prononce), demeure bluffant. Et si les chercheurs n'ont mis dans la bouche d'Obama aucune phrase qu'il n'ait réellement prononcée à un moment ou un autre, il n'est pas difficile d'imaginer un avenir proche où ce type de technique serait employé à des fins plus malveillantes.

La fausse Françoise Hardy de Mario Klingemann.

La vidéo est, aujourd'hui, le médium capable de reproduire le plus fidèlement la réalité. Tout ce que nous voyons en vidéo, pourvu que celle-ci soit de suffisamment bonne qualité et ne respire pas la contrefaçon, nous avons tendance à y accorder crédit, donnant raison au vieil adage selon lequel « voir, c'est croire ». C'est également vrai pour les enregistrements audio. « Mon dieu, j'espère qu'il y a des cassettes ! » s'est exclamé James Comey lors de son audition devant le Sénat, en juin dernier. L'ancien directeur du FBI espérait que des enregistrements audio de ses entretiens avec Donald Trump viendraient appuyer les accusations qu'il était en train de formuler contre lui. Lors de l'affaire du Watergate, ce sont les enregistrements des conversations entre le président Nixon et son équipe qui ont mené à sa démission. S'il devient désormais possible de générer de faux enregistrements audio, de fausses vidéos de n'importe qui, quel crédit apporter à ce type de documents ? Nous avons coutume de voir dans le traitement des masses de données, l'intelligence artificielle et autres technologies de pointe de formidables outils pour nous rapprocher de la vérité, pour voir le monde de manière plus transparente. Mais ces technologies peuvent aussi constituer un formidable outil en faveur du mensonge et de la tromperie.

Bienvenue à l'ère de la post-vérité
Les techniques de manipulation de l'information pourraient ainsi prendre une autre dimension. Si la possibilité de réaliser de fausses vidéos n'est pas entièrement nouvelle - il suffit de se souvenir des soupçons pesant sur certaines vidéos d'Oussama Ben Laden, du chef de l'État Islamique ou encore de Julien Assange - ces nouvelles techniques permettront bientôt à n'importe qui de réaliser des contrefaçons ultra réalistes, instituant un changement d'échelle.

On recourt d'ores et déjà aux bots pour inonder les réseaux sociaux d'informations erronées : et si, demain, ces mêmes bots étaient capables de générer et diffuser massivement de fausses vidéos de personnalités politiques de premier plan, tenant des propos qu'ils n'ont en réalité jamais prononcés ? Des vidéos truquées de Donald Trump annonçant le bombardement de la Corée du Nord ou de Vladimir Poutine menaçant d'envahir la Finlande pourraient devenir virales en un clin d'œil.

En outre, les vidéos et pistes audio tout ce qu'il y a de plus authentiques deviendraient, elles aussi, sujettes à caution. « Avec le bon budget, il est déjà possible de générer une vidéo qui semble parfaitement réelle, les superproductions hollywoodiennes étant le meilleur exemple. » explique Mario Klingemann. « En revanche, le fait que cette technologie devienne plus répandue va entacher la crédibilité des vraies séquences. » Nous pourrions bien vivre à l'ère du soupçon généralisé, ou aucune preuve matérielle ne peut être prise pour argent comptant. Un scénario de paranoïa ambiante qui n'aurait sans doute pas déplu à l'écrivain Philip K. Dick. La confiance des citoyens envers les médias, déjà passablement ébranlée, en prendrait encore un sacré coup, tandis que les thèses conspirationnistes auraient le vent en poupe. Contenus audio et vidéo ne seraient plus des preuves tangibles en justice, et usurper l'identité de quelqu'un, par téléphone ou par Skype, deviendrait un jeu d'enfant.

Heureusement, nous n'en sommes pas encore là. Comme l'illustrent les imperfections relevées dans les différentes technologies sus-citées (le timbre un brin métallique de la voix générée par Lyrebird, les expressions faciales inadéquates de Barack Obama sur les vidéos générées par les chercheurs de l'University of Washington, etc.), il est toujours possible de distinguer une vidéo générée par l'intelligence artificielle d'un document authentique. Mais pour combien de temps ? « Pour l'heure, il est encore possible de repérer une fausse vidéo, générée par des réseaux de neurones, grâce aux composantes qui font partie du processus créatif. Bien sûr, si l'on souhaite rendre la contrefaçon indétectable, il demeure possible d'entraîner d'autres réseaux de neurones pour essayer d'effacer ces traces. » explique Mario Klingemann.

Repérer les contrefaçons grâce aux métadonnées

À l'avenir, il faudra donc inventer des solutions plus élaborées pour tester l'authenticité d'un contenu audio ou vidéo. Tout comme nous avons appris à discerner un photomontage d'un cliché authentique, ou encore la fausse monnaie de la vraie. Une option consisterait à systématiquement enregistrer et relayer les métadonnées d'un contenu audio ou vidéo, de sorte qu'il soit toujours possible de remonter à la source du fichier, de voir où et quand il a été enregistré, dans quelles circonstances, mais aussi de conserver l'accès permanent à une copie du fichier original pour jeter le discrédit sur toutes les versions qui seraient modifiées par la suite. Pour chaque vidéo, on pourrait ainsi comparer ce que l'on voit avec les conditions dans lesquelles elle est censée avoir été prise, et ainsi repérer des incohérences éventuelles, ou au contraire répondre à ceux qui soupçonnent un film authentique d'être truqué.

L'entreprise Nvidia, spécialisée dans la fabrication de processeurs graphiques, a recouru à cette méthode pour démonter certaines thèses conspirationnistes autour de l'atterrissage d'Apollo. En analysant les conditions lumineuses, ils ont démontré que l'étrange reflet sur la combinaison de Buzz Aldrin, dans laquelle certains voyaient l'œuvre d'une caméra hollywoodienne, était en fait la réflexion de la lumière du soleil sur la lune. Amnesty International emploie déjà des techniques similaires pour faire le tri parmi les vidéos dénonçant des atteintes aux droits de l'homme qui lui sont envoyées. L'organisation utilise Google Earth pour étudier le paysage du lieu où la séquence est censée avoir été prise, et vérifie qu'il n'y a pas d'incohérences. Elle emploie également un outil de recherche baptisé Wolfram Alpha pour comparer les conditions climatiques du moment avec celles que l'on constate dans la vidéo.

il est toujours possible de distinguer une vidéo générée par l'intelligence artificielle d'un document authentique. Mais pour combien de temps ?

Il existe en outre déjà des technologies permettant d'attribuer une signature numérique à chaque séquence capturée par une caméra. À l'avenir, on peut imaginer que journalistes, médias et organisations caritatives puissent apposer cette signature à leurs contenus vidéo, afin de certifier leur authenticité. Toute vidéo dépourvue de signature, aussi convaincante soit-elle, serait d'emblée suspecte.

Pour stocker métadonnées et signature numérique tout en assurant leur intégrité, nous pourrions utiliser des technologies de pointe, comme la blockchain, cette base de données décentralisée transparente et sécurisée, notamment employée pour assurer la sécurité des transactions en cryptomonnaies. Les institutions devront également s'adapter à cette nouvelle réalité. Ainsi, pour qu'un contenu audio ou vidéo puisse servir de preuve en justice, il faudra pouvoir prouver son origine et son authenticité à l'aide des métadonnées.

S'il demeurera donc possible de distinguer un faux enregistrement audio, une fausse vidéo d'un contenu réel, la possibilité de manipuler l'information prendra malgré tout une ampleur inédite. C'est pourquoi, selon Mario Klingemann, nous devons apprendre à nous montrer plus méfiants. « Il faut nous faire à l'idée que nous ne pouvons pas faire confiance à ce que nous voyons. Chaque fois que l'on vous présente une information, vous devez vous interroger : de quoi s'agit-il ? À qui cela peut-il profiter ? Y a-t-il d'autres sources validant cette information ? Et cela vaut aussi bien pour les nouvelles que l'on espère être vraies que pour celles qui ne concordent pas avec notre vision du monde. » Dans ce contexte, les mots rédigés par Philip K. Dick dans les années 1950 sont d'une troublante actualité : « Je crois que nous vivons dans un monde différent de celui que nous voyons, et j'ai l'impression d'avoir su un instant de quel autre monde il s'agissait exactement. Mais depuis, depuis cette fameuse nuit, j'ai tout perdu. Le futur, peut-être. »