Hintergrund

StableDiffusion: Bilder aus Texteingabe

David Lee
23.9.2022

Die Bildgenerierung mit künstlicher Intelligenz macht Fortschritte. StableDiffusion vollbringt keine Wunder, ist aber eine Wundertüte. Und du kannst es wie ich selbst ausprobieren.

Jedes Mal anders

Ich tippe zu Beginn «cheesy giraffe skiing in the Swiss mountains wearing headphones» ein. Also eine Giraffe, die in den Schweizer Bergen mit Kopfhörern Ski fährt. Die Texteingaben klappen mit Englisch am besten, weil das Datenmaterial, mit dem StableDiffusion trainiert wurde, hauptsächlich in Englisch ist.

Jedes Mal, wenn StableDiffusion ein Bild generiert, kommt etwas Anderes heraus. Auch mit gleichem Text und gleichen Einstellungen. Mit dem Parameter «Guidance» kannst du angeben, wie eng sich die KI an die Textvorgabe halten soll. Standardmässig ist sie beinahe auf dem Maximalwert – doch selbst dann variieren die Ergebnisse stark.

Wilde Mischungen ergeben Chabis

Das Giraffen-Beispiel bringt verschiedene Dinge zusammen, die normalerweise nicht zusammen gehören. Solche Texteingaben sind natürlich sehr reizvoll – zugleich sind sie für die KI aber sehr schwierig. Denn es gibt keine Fotos, wahrscheinlich nicht einmal Zeichnungen, die das darstellen. Und die KI wird anhand von echten Bildern trainiert.

Das Problem zeigt sich auch beim Text «John Oliver marries a cabbage», zu Deutsch «John Oliver heiratet einen Kohl».

Zwar kommen die im Text erwähnten Elemente in den Bildern vor – aber nicht in der beschriebenen Form. Nirgends heiratet John Oliver einen Kohl. Warum komme ich überhaupt auf so einen Quatsch? Weil in einem John-Oliver-Video jemand dasselbe mit dem Bildgenerator Midjourney ausprobiert hat. Midjourney scheitert genauso wie StableDiffusion.

Weil die KI reale Vorlagen für gute Ergebnisse braucht, hat John Oliver extra einen Kohl geheiratet. Man hilft ja, wo man kann.

Was gut geht und was weniger

Bestimmt sind dir die grotesken Augen von John Oliver aufgefallen. Augen geraten oft schräg. Menschliche Körper sind manchmal grotesk verzerrt. StableDiffusion hat zudem Schwierigkeiten, gerade Linien zu zeichnen.

Bei fotorealistischen Bildern stört dies mehr als bei Gemälden. Ohnehin scheinen die Stärken von StableDiffusion im Bereich von Fantasy-Bildern zu liegen. Die Site arthub.ai vermittelt einen guten Eindruck davon.

Hier einige Bilder zum Text «a beautiful castle beside a waterfall in the woods, fantasy painting».

Mit vagen abstrakten Begriffen kann StableDiffusion ebenfalls wenig anfangen. Das unpassendste Bild in meinem ganzen Versuch mit mehreren Hundert Bildern kam zum Thema «Happiness» heraus: Es drückt so ziemlich das Gegenteil aus.

Top 20: Die besten Illustrationen von Songtiteln

20: Dr. Funkenstein (George Clinton)

19: Dancing Queen (ABBA)

18: Cosmic Girl (Jamiroquai)

17: Breakfast in America (Supertramp)

16: Shelter From The Storm (Bob Dylan)

15: Yellow River (Christie)

14: Jailhouse Rock (Elvis Presley)

13: Diamonds on the Soles of Her Shoes (Paul Simon)

12: Sexy Motherfucker (Prince)

11: Shine On You Crazy Diamond (Pink Floyd)

10: Material Girl (Madonna)

9: Leck mich im Arsch (Wolfgang Amadeus Mozart)

8: Sex Machine (James Brown)

7: I Am the Walrus (Beatles)

6: Bad Guy (Billie Eilish)

5: Sultans of Swing (Dire Straits)

4: The Boy in the Bubble (Paul Simon)

3: Highway to Hell (AC/DC)

2: Lucy In The Sky With Diamonds (Beatles)

1: Shiny Happy People (R.E.M.)

29 Personen gefällt dieser Artikel


User Avatar
User Avatar

Durch Interesse an IT und Schreiben bin ich schon früh (2000) im Tech-Journalismus gelandet. Mich interessiert, wie man Technik benutzen kann, ohne selbst benutzt zu werden. Meine Freizeit ver(sch)wende ich am liebsten fürs Musikmachen, wo ich mässiges Talent mit übermässiger Begeisterung kompensiere. 


Computing
Folge Themen und erhalte Updates zu deinen Interessen

Foto und Video
Folge Themen und erhalte Updates zu deinen Interessen

Hintergrund

Interessantes aus der Welt der Produkte, Blicke hinter die Kulissen von Herstellern und Portraits von interessanten Menschen.

Alle anzeigen

Diese Beiträge könnten dich auch interessieren

  • Hintergrund

    Das taugen Adobes neue KI-Funktionen in Lightroom

    von Samuel Buchmann

  • Hintergrund

    Ich habe versucht schönere Bilder als die NASA zu entwickeln und bin gescheitert

    von Samuel Buchmann

  • Hintergrund

    Wann ist ein Foto echt?

    von Samuel Buchmann