News & Trends

KI wandelt Sprache in Porträts – MIT-Forschenden gelingt Erstaunliches

Martin Jud
7.4.2022

Forschende des Massachusetts Institute of Technology (MIT) haben 2019 einen Algorithmus vorgestellt, der heute dank einer künstlichen Intelligenz (KI) überraschende Resultate liefert. Die KI erstellt anhand einer Sprachaufnahme ein dazugehörendes Gesicht.

Viele Ergebnisse weisen eine grosse Ähnlichkeit zum Menschen hinter der Stimme auf.

So funktioniert Speech2Face

Gelungen ist das den Forschenden, indem sie das künstliche neuronale Netz mit Millionen Youtube-Videos «fütterten». Videos von Menschen, die vor der Kamera sprechen. Die KI erhielt den Auftrag, Geräuschmerkmale zu finden, die gewissen Gesichtszügen und anderen Merkmalen zugeordnet werden können. Ohne externe Hilfe lernte die KI auf Alter, Geschlecht, ethnische Zugehörigkeit und weiteres zu schliessen – und aus den Informationen Porträts zu generieren.

Weiter entwickelten die Forschenden einen Gesichts-Decoder, der ein frontales Porträt aus einem Youtube-Standbild rekonstruiert. Die Software macht das unabhängig von der Beleuchtung und der Pose des abgelichteten Menschen. Das Resultat dient zur Überprüfung der von Speech2Face erstellten Frontalporträts. Dabei kommen beeindruckende Ergebnisse zusammen.

Ganz links siehst du das Youtube-Standbild. In der Mitte das aus dem Youtube-Standbild generierte Testbild zur Überprüfung. Und rechts das rein aus einer kurzen Sprachaufnahme generierte Bild.

Längere Sprachaufnahmen führen übrigens zu einem besseren Ergebnis. Das zeigen die Forschenden mit folgenden Beispielen, die aus drei beziehungsweise sechs Sekunden langen Audioschnipseln entstanden sind.

Probleme hat die KI momentan noch mit hohen Männerstimmen, die oft als weiblich gedeutet werden. Ausserdem erhalten asiatische Männer, die amerikanisches Englisch sprechen, Porträts, die weissen Männern ähneln. Spricht die gleiche Person in ihrer Muttersprache, wird die richtige ethnische Zugehörigkeit zugeordnet.

Noch genauere Ergebnisse erhoffen sich die Forschenden, wenn sie mehr Trainingsdaten bereitstellen, die für die gesamte Weltbevölkerung repräsentativer sind. Sie sind sich bewusst, dass die KI momentan mit Rassismusvorurteilen zu kämpfen hat und versuchen diesen Missstand zu beheben.

Was ist mit Datenschutz?

Auch wenn wissenschaftliche Gründe hinter diesem Projekt stehen, stellen sich Fragen zum Missbrauch. Dazu meinen die Forschenden, dass ihr System nicht in der Lage sei, die wahre Identität einer Person anhand der Stimme aufzudecken. Die KI sei darauf trainiert, aufgrund der Spracheingabe Merkmale zu erfassen, die viele Personen gemeinsam aufweisen. Daraus resultieren durchschnittlich aussehende Gesichter mit typisch visuellen Merkmalen.

Ob das so bleibt, wird die Zukunft zeigen. Falls du dir anhören möchtest, wie die ursprüngliche Sprachaufnahme zu einem generierten Bild klingt, findest du hier Beispiele.

34 Personen gefällt dieser Artikel


User Avatar
User Avatar

Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.


Computing
Folge Themen und erhalte Updates zu deinen Interessen

News & Trends

Vom neuen iPhone bis zur Auferstehung der Mode aus den 80er-Jahren. Die Redaktion ordnet ein.

Alle anzeigen