Images of paintings.
Image via Samsung AI Center
Tech

Réaliser une fausse vidéo d’une personne à partir d’une seule photo devient beaucoup trop facile

Les chercheurs de Samsung ont créé un algorithme qui permet de voir parler Fyodor Dostoïevski, Salvador Dalí ou Mona Lisa.

Les chercheurs du centre de recherche sur l’intelligence artificielle de Samsung à Moscou ont créé un algorithme permettant de réaliser des portraits animés à partir d’un petit ensemble de données.

Leur article, intitulé Few-Shot Adversarial Learning of Realistic Neural Talking Head Models , a été publié sur arXiv.org, un serveur d’archive de prépublications électroniques d’articles scientifiques.

Publicité

Ils l’appellent l’apprentissage à partir de quelques images ou d’une seule image : l’algorithme peut produire à partir d’une seule image un portrait animé convaincant. Avec à peine quelques images de plus (on donne des exemples avec huit et trente-deux images) le réalisme s’accroît.

Comme il leur suffit d’une image, les chercheurs ont pu animer des portraits et des peintures célèbres, et les résultats sont déconcertants. Fyodor Dostoïevski, décédé bien avant la commercialisation des caméras, bouge et parle dans une vidéo en noir et blanc. Le visage de Mona Lisa s’anime, et même si elle conserve un léger sourire, ses yeux et ses lèvres bougent. Salvador Dalí raconte quelque chose.

Ces « modèles de têtes parlantes réalistes » ont été créés à l’aide d’un réseau de neurones convolutifs : ils entraînent un algorithme au moyen d’un grand ensemble de données de vidéos de personnes très variées filmées en gros plan alors qu’elles parlent. Dans ce cas-ci, les chercheurs ont utilisé les bases de données accessibles à tous de VoxCeleb contenant plus de 7000 vidéos YouTube de célébrités.

L’algorithme a appris à reconnaître les caractéristiques importantes du visage : le mouvement et la forme des yeux, des lèvres, du nez.

C’est un grand bond après ce qui avait été accompli avec même deepfakes ou des algorithmes basés sur les réseaux antagonistes génératifs. Plutôt que d’apprendre à un algorithme à coller sur le visage d’une personne des expressions du catalogue de ses propres expressions, ils se basent sur les expressions du visage d’un immense groupe d’humains pour jouer les marionnettistes avec un autre visage.

Les chercheurs écrivent dans l’article scientifique que des visages-avatars animés réalistes peuvent servir pour des conférences vidéo, des jeux vidéo, des effets spéciaux. Toutefois, la vallée de l’étrange — théorie selon laquelle plus l’apparence d’un humain artificiel s’approche de la réalité, plus son apparence déconcerte — a jusqu’à maintenant freiné l’adoption de ce genre de technologie. Ils espèrent que, vu la faible quantité de données requises et le réalisme du résultat, leur travail permettra de franchir cette barrière.

Pour plus d'articles comme celui-ci, inscrivez-vous à notre infolettre.