Pubblicità
Tech by VICE

A questo tool bastano 20 minuti per imitare perfettamente una voce

Avete mai sognato di urlare insulti ai vostri vicini con la voce di Natalie Portman? VoCo è qui per voi.

di Matthew Gault
07 novembre 2016, 2:46pm

Che paura. Immagine: Adobe Creative Cloud/ YouTube

Avete mai sognato di urlare insulti ai vostri vicini con la voce di Natalie Portman? Cosa succederebbe se Gary Busey potesse lasciare un messaggio sexy nella segreteria telefonica di vostra madre per il suo compleanno? Chi non vorrebbe fare uno scherzo al proprio fratellino, costringendolo a chiamare la persona per cui ha una cotta e confessare il suo amore? Adobe è qui per tutti noi.

Quando Adobe ha messo in commercio per la prima volta Photoshop, nel 1990, sognava un mondo in cui gli studi cinematografici e quelli di fotografia avrebbero potuto risolvere nel giro di pochi minuti problemi che prima richiedevano ore di lavoro. Non aveva esattamente previsto il fatto che il mondo avrebbe poi sfruttato l'editing digitale per mettere le facce delle persone famose sui corpi delle star del porno, e per distorcere i corpi femminili sulle copertine delle riviste e creare meme crudeli.

Ora, quella stessa azienda che ha donato Photoshop al mondo vuole fare per la voce umana ciò che ha fatto per la sua immagine—darci gli strumenti per manipolarla in tutti i modi possibili e immaginabili. Alla Adobe Max Creativity Conference, l'azienda ha presentato in anteprima VoCo: una suite di editing audio che permetterà ai suoi utenti di dire ciò che vogliono, battendo sulla tastiera.

Secondo Adobe, bastano circa 20 minuti di ascolto di una voce, perché gli utenti possano farle dire quello che vogliono, digitando le parole. Il comico e regista Jordan Peele ha presentato l'evento, mentre il tecnico esperto di Adobe Zeyu Jin ha mostrato la demo del processo al pubblico, manipolando un'intervista con il compagno di sketch comici di Peele, Keegan-Michael Key. Jin ha preso l'audio esistente di Key, poi ha usato il software per farlo parlare di baciare Peele invece di sua moglie.

Nella traccia audio, Key esprime il proprio entusiasmo riguardo il fatto di essere stato nominato per un qualche premio. "Sono saltato sul letto," ha detto Key. "E ho, ecco, baciato il mio cane e mia moglie… in quell'ordine." Lo schermo dietro la testa di Jin mostrava una forma d'onda audio e uno piccolo riquadro con la frase trascritta.

Jin ha cancellato alcune parti del testo e ha digitato le nuove frasi e la forma d'onda si è modificata coerentemente. Nel giro di pochi secondi, il tecnico di Adobe aveva fatto in modo che Key dicesse di aver baciato la moglie, il cane, e poi anche Jordan, tre volte. Jin ha fatto tutto premendo qualche tasto. Il suono era perfetto.

"Non vi preoccupate," ha detto Jin, "Stiamo studiando un modo per prevenire la contraffazione. Tipo i watermark. Per quanto i risultati diventino sempre più sofisticati—al punto che le persone non riescono a distinguere il vero dal falso—, noi mettiamo altrettanto impegno nel rendere la manipolazione rintracciabile." Poi ha alzato i pollici e sorriso.

Jin ha detto che Adobe ha sviluppato il software per aiutare chi fa podcast e audiolibri. Digitare nuove tracce audio anziché pre-registrarle sarebbe una benedizione per entrambe le professioni. Ma Adobe sa che questo strumento rischia di essere utilizzato per far dire alle persone cose che non hanno mai detto veramente. Diamine, la prima dimostrazione della tecnologia si è basata sul contraffare la voce del presentatore della sua stessa conferenza.