La settimana scorsa alcuni video in cui—a prima vista—l’attore Jim Carrey sembra reinterpretare (troppo) fedelmente alcune scene molto famose del film Shining al posto del vero protagonista (Jack Nicholson) sono diventati virali. In realtà, i video sono un deep fake: il volto di Carrey è stato innestato artificialmente sul corpo di Nicholson da un autore noto con lo pseudonimo di Ctrl Shift Face, grazie a un tool open source chiamato DeepFaceLab.
Realizzare video deep fake—sia con fini innocui o di puro virtuosismo, come nel caso del video di Ctrl Shift Face, sia con fini decisamente più discutibili e inquietanti, come nel caso recente della app DeepNude, che trasformava qualsiasi foto di donna in un nudo—è sempre più facile. Questo perché, nonostante i deep fake si basino su tecnologie sofisticate come le reti neurali, non richiedono in realtà grandi doti informatiche, e, alle volte, basta un’immagine sola per ottenere un ottimo effetto.
Videos by VICE
A maggio, i ricercatori del Samsung AI Center di Mosca hanno dato l’esempio perfetto di questo concetto, sviluppando un modo per creare “ritratti viventi” da un dataset molto ridotto.
Il paper, intitolato “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models,” è stato pubblicato su arXiv il 20 maggio scorso.
La tecnica sviluppata dai ricercatori si basa sull’utilizzo di una o pochissime immagini per allenare il modello e creare un ritratto animato convincente. Con l’aggiunta di qualche scatto in più—otto, o 32 fotografie—il realismo migliora nettamente.
Poiché necessitano solo di un’immagine sorgente, i ricercatori sono riusciti ad animare dipinti e ritratti fotografici famosi, con risultati a dir poco inquietanti. Fyodor Dostoevsky—che è morto ben prima che le cineprese diventassero un prodotto di consumo di massa—si muove e parla come se fosse impresso su una pellicola in bianco e nero. La Gioconda muove la bocca e gli occhi silenziosamente, sorridendo di sfuggita. Salvador Dalì si lamenta, mentre i suoi baffi vibrano.
Questi “modelli fotorealistici di mezzibusti parlanti” sono creati usando reti neurali convoluzionali (o CNN): i ricercatori hanno allenato un algoritmo su un ampio dataset di video di primi piani di persone che parlano, tutte di aspetti fisici diversi. Nello specifico, hanno usato i database disponibili pubblicamente di VoxCeleb, che contengono oltre 7.000 immagini di celebrità prelevate da video di YouTube.
In questo modo il programma si abitua a identificare ciò che i ricercatori chiamano “i punti di riferimento” del volto: occhi, posizioni della bocca, lunghezza e forma del setto nasale.
La differenza, rispetto ad altre tecniche di deep fake e altri algoritmi che usano le reti generative avversarie, è significativa. Anziché insegnare all’algoritmo come incollare una faccia su un’altra usando un catalogo di espressioni prelevate da una persona sola, usano i tratti del viso che sono comuni alla maggior parte delle persone per poi manovrare come un pupazzo un nuovo volto.
I ricercatori hanno scritto nel paper che riconoscono potenziali applicazioni per avatar realistici in conferenze video, videogiochi ed effetti speciali—ma il senso di inquietudine ci trattiene spesso dall’abbracciare pienamente l’uso di strumenti del genere per le persone reali. Sperano che il loro lavoro possa cambiare questa cosa, dati i requisiti minimali e il realismo “perfetto.”
Questo articolo è apparso originariamente su VICE US.