News & Trends

KI wandelt Sprache in Porträts – MIT-Forschenden gelingt Erstaunliches

7.4.2022

Forschende des Massachusetts Institute of Technology (MIT) haben 2019 einen Algorithmus vorgestellt, der heute dank einer künstlichen Intelligenz (KI) überraschende Resultate liefert. Die KI erstellt anhand einer Sprachaufnahme ein dazugehörendes Gesicht.

Die Ergebnisse sind noch nicht perfekt, doch in einigen Fällen bereits verdammt nah am Originalgesicht. Eine KI trainiert sich selbst anhand Youtube-Videos und eines Algorithmus – Speech2Face getauft. Den Algorithmus haben Wissenschaftler für KI des zum MIT gehörenden Computer Science and Artificial Intelligence Laboratory (CSAIL) geschrieben. Sie schufen eine KI, die drei Sekunden lange Sprachaufnahmen anhand festgelegter Parameter und ihrer gesammelten Erfahrung zu Porträts wandelt.

Viele Ergebnisse weisen eine grosse Ähnlichkeit zum Menschen hinter der Stimme auf.

So funktioniert Speech2Face

Gelungen ist das den Forschenden, indem sie das künstliche neuronale Netz mit Millionen Youtube-Videos «fütterten». Videos von Menschen, die vor der Kamera sprechen. Die KI erhielt den Auftrag, Geräuschmerkmale zu finden, die gewissen Gesichtszügen und anderen Merkmalen zugeordnet werden können. Ohne externe Hilfe lernte die KI auf Alter, Geschlecht, ethnische Zugehörigkeit und weiteres zu schliessen – und aus den Informationen Porträts zu generieren.

Weiter entwickelten die Forschenden einen Gesichts-Decoder, der ein frontales Porträt aus einem Youtube-Standbild rekonstruiert. Die Software macht das unabhängig von der Beleuchtung und der Pose des abgelichteten Menschen. Das Resultat dient zur Überprüfung der von Speech2Face erstellten Frontalporträts. Dabei kommen beeindruckende Ergebnisse zusammen.

Ganz links siehst du das Youtube-Standbild. In der Mitte das aus dem Youtube-Standbild generierte Testbild zur Überprüfung. Und rechts das rein aus einer kurzen Sprachaufnahme generierte Bild.

Längere Sprachaufnahmen führen übrigens zu einem besseren Ergebnis. Das zeigen die Forschenden mit folgenden Beispielen, die aus drei beziehungsweise sechs Sekunden langen Audioschnipseln entstanden sind.

Probleme hat die KI momentan noch mit hohen Männerstimmen, die oft als weiblich gedeutet werden. Ausserdem erhalten asiatische Männer, die amerikanisches Englisch sprechen, Porträts, die weissen Männern ähneln. Spricht die gleiche Person in ihrer Muttersprache, wird die richtige ethnische Zugehörigkeit zugeordnet.

Noch genauere Ergebnisse erhoffen sich die Forschenden, wenn sie mehr Trainingsdaten bereitstellen, die für die gesamte Weltbevölkerung repräsentativer sind. Sie sind sich bewusst, dass die KI momentan mit Rassismusvorurteilen zu kämpfen hat und versuchen diesen Missstand zu beheben.

Was ist mit Datenschutz?

Auch wenn wissenschaftliche Gründe hinter diesem Projekt stehen, stellen sich Fragen zum Missbrauch. Dazu meinen die Forschenden, dass ihr System nicht in der Lage sei, die wahre Identität einer Person anhand der Stimme aufzudecken. Die KI sei darauf trainiert, aufgrund der Spracheingabe Merkmale zu erfassen, die viele Personen gemeinsam aufweisen. Daraus resultieren durchschnittlich aussehende Gesichter mit typisch visuellen Merkmalen.

Ob das so bleibt, wird die Zukunft zeigen. Falls du dir anhören möchtest, wie die ursprüngliche Sprachaufnahme zu einem generierten Bild klingt, findest du hier Beispiele.

34 Personen gefällt dieser Artikel

Martin Jud

Senior Editor

martin.jud@digitecgalaxus.ch

Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.

Computing

Folge Themen und erhalte Updates zu deinen Interessen

15 Kommentare

later