Tech by VICE

Ahora es muy fácil crear videos falsos de las caras de las personas

Investigadores de Samsung desarrollaron un algoritmo que solo necesita una imagen de origen para crear videos falsos.

por Samantha Cole; traducido por Álvaro García
27 Mayo 2019, 2:00pm

Imagen vía Samsung AI Center

Artículo publicado originalmente por VICE Estados Unidos.

Los investigadores en el Centro AI de Samsung en Moscú desarrollaron una forma de crear "retratos vivos" a partir de un conjunto de datos muy pequeño: en algunos de sus modelos lo único que se requiere es una fotografía.

El documento, "Few-Shot Adversarial Learning of Realistic Neural Talking Head Models", se publicó el lunes en el servidor de preimpresión arXiv.

Los investigadores llaman a esto "aprendizaje few-shot" (de pocas imágenes), donde se puede entrenar a un modelo usando solo una imagen para crear un retrato convincente y animado. Con unas cuantas imágenes —de ocho o 32 fotografías— el realismo mejora aún más.

Debido a que solo necesitan una imagen de origen, los investigadores pudieron animar pinturas y retratos famosos, con resultados espeluznantes. Fyodor Dostoievski, quien murió mucho antes de que las cámaras cinematográficas estuvieran disponibles comercialmente, se mueve y habla en blanco y negro. La Mona Lisa mueve silenciosamente su boca y sus ojos, con una leve sonrisa en su rostro. Salvador Dalí declama, moviendo los bigotes.

Estos "modelos fotorrealistas de cabezas parlantes" son creados mediante el uso de redes neuronales convolucionales: entrenaron al algoritmo con un gran conjunto de datos de videos de personas hablando, con una amplia variedad de apariencias. En este caso, utilizaron las bases de datos de VoxCeleb, disponibles públicamente, que contienen más de 7,000 imágenes de celebridades tomadas de videos de YouTube.

Esto capacita al programa para identificar lo que ellos llaman características "emblemáticas" de las caras: ojos, formas de la boca, la longitud y la forma del puente nasal.

Esto, en cierto modo, es un salto más allá de lo que pueden lograr incluso los deepfakes y otros algoritmos que usan redes generativas. En lugar de enseñar al algoritmo a pegar una cara en otra utilizando un catálogo de expresiones de una persona, usan las características faciales que son comunes en la mayoría de los humanos para luego tomar control de una nueva cara.

Los investigadores dijeron en el documento que reconocen las aplicaciones para los avatares faciales realistas en videoconferencias, juegos y efectos especiales, pero el valle inquietante a menudo nos impide adoptar el uso generalizado de avatares faciales de personas reales. Ellos esperan que esta tecnología cambie eso, debido a sus bajos requisitos de fuentes originales y su realismo "perfecto".