Starre Augen, verzerrte Münder, Zähnefletschen – nein, wir sprechen hier nicht über den Trailer zur Neuverfilmung von Stephen Kings Es, sondern über das Aushängeschild hochentwickelter KI-Technologie.
Genau genommen handelt es sich um die Weiterentwicklung des pix2pix-Projekts, einem Algorithmus zur interaktiven Bildübersetzung. Durch maschinelles Lernen sollen hier neuronale Netzwerke Input-Bilder in Output-Bilder übersetzen, also beispielsweise Skizzen von menschlichen Gesichtern in – vermeintlich – überzeugend echte Fotoporträts umwandeln.
Videos by VICE
Folgt Motherboard auf Facebook, Instagram, Snapchat und Twitter
Vor ein paar Monaten konnten begeisterte Hobbykritzler bereits in einer Demo-Version ihre schrägen Katzenzeichnungen in noch schrägere Katzenfotos umwandeln lassen. Das Prinzip ist einfach: Man kritzelt etwas Katzen-ähnliches in eine kleine Box und ein Algorithmus versucht diese Skizze als Katze zu interpretieren. Dabei greift das Programm auf Tausende Katzenbilder zurück, mit denen es trainiert wurde und versieht das Bild mit Strukturen und Farben. Doch verzerrte Katzenbilder waren nur der Anfang. Das neueste Upgrade des Bildübersetzungsprojekts beschert uns menschliche Gesichter, die aussehen, als seien sie einem Horrorfilm entsprungen.
Das pix2pix-Projekt offenbart etwas sehr Grundlegendes über den aktuellen Stand Künstlicher Intelligenz: Sie ist noch immer unsagbar schlecht darin, auf der Grundlage von Zeichnungen aus Menschenhand neue Bilder zu erstellen, oder zumindest darin, sinnvolle neue Bilder zu erstellen. Beim Kategorisieren bereits existierender Bilder schneidet die KI schon besser ab, doch selbst hier erzielen nur ein paar wenige Erkennungsmodelle wirklich gute Ergebnisse, wie beispielsweise die Gesichtserkennungssoftware des Max-Planck-Instituts. Um eine KI in diesem Bereich effizienter werden zu lassen, muss das Modell mit einem Datensatz mit Millionen an Bildern trainiert werden; ein sehr zeitaufwändiger Prozess des Maschinellen Lernens.
Ebenfalls auf VICE: Avatar Sex: Scanning Pornstars into Virtual Reality
Das Projekt Pix2pix baut dabei auf den sogenannten Generative Adversarial Networks (GANs) auf, einem vielversprechenden Deep-Learning-Modell. Mit Hilfe dieser Algorithmen werden generative neuronale Netze darauf trainiert, eine bestimmte “Verlustfunktion” anzuwenden, um vorherzusagen, ob ein generiertes Bild echt oder falsch ist. Im Grunde lernt der Algorithmus authentische Bilder zu generieren, indem er gleich einen ganzen Haufen an Bildern generiert, während eine andere Komponente des Algorithmus diese beurteilt und als “wahr” oder “falsch” einstuft.
Mit einem ausreichend großen Datensatz können GANs sogar darauf trainiert werden, eigene Bilder ganz ohne Vorlage zu erstellen. Steht nur ein begrenzter Datensatz an Bildern zur Verfügung, erhält man eben diese grausigen Fratzen. Anstatt zu lernen, wie man Bilder von Grund auf erstellt, lernt dieser Algorithmus die Kritzelei von einem Touchpad in ein Bild zu übersetzen. Dabei sucht das Netzwerk bestimmte Merkmale aus der Zeichnung heraus und ordnet sie Merkmalen zu, die es erlernt hat. Die Ergebnisse sehen dann so aus:
Auch wenn die vom pix2pix-Fotogenerator erzeugten Bilder heute noch eher dilletantisch und realitätsfern wirken, zeigen sie doch, welch große Bedeutung GANs bereits heute im Bereich des maschinellen Lernens spielen. Wir dürfen also von der Künstlichen Intelligenz des pix2pix-Fotogenerators, der ein fortlaufendes Projekt des AI Research Laboratory der Uni Berkeley ist , in Zukunft noch einiges erwarten.
Jetzt könnt ihr auf der Website des Projekts aber erstmal nach Herzenslust eure eigenen Zeichnungen von der KI in ein neues Bild übersetzen lassen.