moa lisa, dali, meisje met de parel
Afbeelding via Samsung AI Center
Tech

Het wordt weer makkelijker om nepvideo’s van mensen te maken

Onderzoekers van Samsung hebben een algoritme ontwikkeld dat met maar één foto als bron een nepvideo kan genereren.

Onderzoekers aan het Samsung AI Center in Moskou hebben een manier ontwikkeld om ‘levende portretten’ te maken met een zeer beperkte dataset – soms zelfs maar één afbeelding als bronbestand.

Het onderzoeksrapport Few-Shot Adversarial Learning of Realistic Neural Talking Head Models werd afgelopen maandag gepubliceerd.

De onderzoekers noemen de techniek ‘few- and one shot learning’. Er is maar een afbeelding nodig om een overtuigend, bewegend portret te maken. Met een paar foto’s extra – 8 tot 32 afbeeldingen – neemt het realisme alleen maar meer toe.

Advertentie

Omdat ze maar een bronafbeelding nodig hebben kunnen de onderzoekers ook schilderijen en beroemde portretten tot leven brengen, met een nogal griezelig resultaat. Fjodor Dostojevski, die lang voordat videocamera’s commercieel beschikbaar werden overleed, beweegt en praat in zwart-wit. Mona Lisa beweegt haar mond en ogen in stilte, de flauwe glimlach nog altijd op haar gezicht. Salvador Dalí kletst een end weg, compleet met op en neer deinend snorretje.

Deze ‘fotorealistische pratende hoofden’ zijn het resultaat van zogeheten convolutionele neurale netwerken; ze hebben het algoritme getraind met een grote dataset van video’s van pratende mensen met uiteenlopende verschijningen. In dit geval is gebruik gemaakt van de publiekelijk toegankelijke VoxCeleb databases, die meer dan 7000 afbeeldingen van beroemdheden bevatten, afkomstig uit youtube-video’s.

Hiermee wordt het programma getraind om belangrijke kenmerken van het gezicht te zien: ogen, de vorm van de mond en de lengte en vorm van de neusbrug.

Dit is in zekere zin nog een stuk geavanceerder dan het resultaat van deepfakes en andere Generative Adversarial Networks (GANs). In plaats van dat het algoritme wordt aangeleerd om een gezicht op dat van iemand anders te plakken, met een verscheidenheid aan foto’s van verschillende uitdrukkingen van het onderwerp, kan dit algoritme de gelaatstrekken die we bijna allemaal delen gebruiken om een nieuw gezicht te maken.

De onderzoekers schrijven in hun paper dat ze toepassingen van deze technologie zien in realistische avatars voor videotelefonie, videogames en special effects – waar doorgaans het ‘uncanny valley’-effect ons tegenhoudt in het volledig omarmen van avatars van echte mensen. Ze hopen dat ze dit met hun werk aan dit project kunnen veranderen, vanwege de lage eisen voor bronmateriaal, en ‘perfecte’ realisme.