De la porno contrefaite à l’aide de l’intelligence artificielle apparaît sur le web

L’article original a été publié sur Motherboard.

Une vidéo de Gal Gadot qui baise avec son demi-frère circule sur le web. Ce n’est pas le vrai corps de Gal Gadot et ce n’est pas vraiment son visage. C’est une approximation créée par ordinateur. Un remplacement de visage afin de donner l’impression qu’elle donne dans la porno incestueuse.

Videos by VICE

Cette vidéo a été réalisée avec un algorithme d’apprentissage automatique, du matériel informatique facilement accessible et du code libre. Une vidéo que n’importe qui possédant une bonne connaissance des algorithmes d’apprentissage profond peut réaliser.

Un extrait de la vidéo mise en ligne sur SendVid

Comme l’outil d’Adobe pour faire dire n’importe quoi à n’importe qui et l’algorithme de Face2Face pour transposer les mouvements du visage d’une personne à une autre en temps réel, cette vidéo porno montre qu’on est sur le point d’entrer dans un futur où il est facile de fabriquer des vidéos crédibles d’une personne faisant ou disant ce qu’on veut. Même baiser.

Jusqu’à maintenant, deepfakes a mis en ligne sur Reddit des vidéos pornos dans lesquelles on voit le visage de Scarlett Johansson, Maisie Williams, Taylor Swift, Aubrey Plaza, en plus de Gal Gadot. J’ai communiqué avec l’agence ou le publiciste de chacune de ces actrices pour les en informer.

La fausse porno de célébrités, par exemple des photos modifiées pour faire croire qu’il s’agit d’elles nues, date de plusieurs années déjà et compte d’avides consommateurs. Les gens qui commentent et votent dans les forums sur Reddit où deepfakes met en ligne ses vidéos admirent son travail. C’est le plus récent progrès dans le domaine.

« Ce n’est plus sorcier »

Selon deepfakes, qui a refusé de nous donner son nom pour préserver son anonymat, le logiciel fonctionne avec plusieurs librairies libres, comme Keras et TensorFlow. Pour compiler les visages des célébrités, il se sert de la recherche d’images de Google, de banques de photos et de vidéos sur YouTube.

L’apprentissage profond consiste en réseaux de nœuds qui effectuent de façon autonome des calculs à partir des données dont on les nourrit. En l’occurrence, deepfakes les a alimentés en vidéos pornos et en images du visage de Gal Gadot. Après qu’ils ont reçu suffisamment de données, les nœuds de réseaux s’organisent pour effectuer une tâche particulière, comme manipuler une vidéo de façon convaincante.

Le chercheur en intelligence artificielle Alex Champanard m’a dit qu’une carte graphique de bonne qualité, comme celles qu’on vend aux particuliers, pouvait servir à créer cet effet en quelques heures. Une unité centrale de traitement (CPU) le permet tout aussi bien, mais en quelques jours.

« Ce n’est plus sorcier », dit-il.

La facilité avec laquelle on peut y arriver est terrifiante. Outre le matériel informatique nécessaire, tout ce dont on a besoin, c’est d’une bonne quantité de photos d’un visage. Beaucoup d’entre nous créent des banques de photos de notre tête sans cesse enrichies : le monde a mis en ligne 24 milliards de selfies dans Google Photos en 2015 et 2016. Par conséquent, il n’est pas difficile d’imaginer qu’un programmeur amateur puisse créer avec cet algorithme une vidéo porno d’une personne à laquelle il souhaite s’en prendre.

Deepfakes m’a dit qu’il n’est pas un chercheur professionnel, seulement un programmeur avec un intérêt pour l’apprentissage profond.

« J’ai trouvé une façon ingénieuse de remplacer un visage », résume-t-il, en parlant de son algorithme. « Avec des centaines d’images de visage, je peux facilement générer des millions d’images déformées pour entraîner le réseau, explique-t-il. Après, si j’alimente le réseau avec le visage d’une personne, il pense que ce n’est qu’une autre image déformée et essaie de lui donner l’apparence du visage d’entraînement. »

Dans une suite de commentaires sur Reddit, deepfakes mentionne qu’il utilise un algorithme similaire à celui qu’ont élaboré les chercheurs de Nvidia, qui, au moyen de l’apprentissage profond, peut instantanément changer une vidéo d’un paysage d’été en paysage d’hiver.

Dans presque tous les exemples que deepfakes a mis en ligne, le résultat est imparfait. Dans la vidéo de Gal Gadot, une boîte apparaît parfois autour du visage de l’actrice et l’image originale transparaît alors. De plus, les mouvements de bouche et des yeux ne correspondent pas toujours aux mots prononcés. D’autres vidéos de deepfakes sont cependant plus convaincantes.

L’actrice porno Grace Evangeline m’a dit en message privé sur Twitter que, dans le domaine, on a l’habitude de voir son travail distribué gratuitement et sans permission par l’entremise de sites web comme SendVid, où la fausse vidéo de Gal Gadot a été mise en ligne. Mais elle dit que, cette fois, c’est différent. Elle n’a jamais rien vu de tel.

« L’une des choses vraiment importantes, c’est le consentement, dit-elle. Le consentement pour un film comme dans la vie privée. La création de fausses scènes de sexe de célébrités se fait sans leur consentement. C’est mal. »

Même pour des personnes qui gagnent leur vie devant la caméra, l’intrusion dans l’espace personnel d’une personne pose problème. J’ai montré la vidéo de Gal Gadot à Alia Janine, une actrice porno qui a travaillé dans cette industrie pendant 15 ans avant de prendre sa retraite. « C’est vraiment troublant. Ça montre à quel point des hommes ne voient les femmes que comme des objets qu’ils peuvent manipuler et à qui ils peuvent faire faire tout ce qu’ils veulent. Ils n’ont pas le moindre respect », a-t-elle réagi quand on s’est parlé au téléphone.

J’ai demandé à deepfakes s’il pensait à l’enjeu éthique de cette technologie. Est-ce qu’il a en tête le consentement, la revanche porno, le chantage quand il élabore un algorithme pareil?

« Toutes les technologies peuvent être utilisées à mauvais escient, et c’est impossible à arrêter », a-t-il répondu, estimant que c’est comparable à la technologie qui a permis de recréer Paul Walker dans Furious 7. « La grande différence, c’est à quel point c’est facile. Je ne pense pas qu’il soit mauvais que plus de personnes ordinaires puissent s’adonner à la recherche sur l’apprentissage automatique. »

D’un point de vue éthique, les implications sont « énormes », dit M. Champandard. Souvent, l’utilisation malveillante de la technologie est inévitable, mais on peut la contrer.

« On doit avoir un très vaste débat public, estime-t-il. Tout le monde doit savoir combien il est facile de manipuler des photos et des vidéos, au point où il sera dans quelques mois impossible de distinguer une image authentique d’une image contrefaite. Bien sûr, il est possible de les manipuler depuis longtemps, mais, auparavant, il fallait beaucoup de ressources et de spécialistes en effets spéciaux pour y parvenir. Dorénavant, un seul programmeur avec un ordinateur récent peut le faire. »

Pour plus d’articles comme celui-ci, inscrivez-vous à notre infolettre.

M. Champandard dit que les chercheurs peuvent commencer à concevoir des outils pour détecter les vidéos contrefaites et aider à réduire leur nombre. Il ajoute que la surveillance d’internet peut être améliorée pour établir des mesures à prendre quand ces types de contrefaçons apparaissent.

Ce serait, « d’une façon étrange », une bonne chose, dit enfin M. Champandard. « On doit s’efforcer de transformer la société de façon à pouvoir intervenir dans ces cas. »