
Hintergrund
Mit Bilder-KI «DALL-E» kurzerhand vom Feenland zum Horrorszenario
von Michelle Brändle
Während KI-Modelle wie ChatGPT auf Texte antworten oder wie MidJourney Bilder aus Texten erstellen, verfolgt MiniGPT-4 einen anderen Ansatz. Es erstellt Texte aus Bildern.
OpenAI hat im März 2023 GPT-4 vorgestellt, auf dem auch ChatGPT basiert. Es ist ein multimodales Modell, das nicht nur mit Text umgehen kann. Noch ist die Funktion, Bilder zur Erstellung von Texten hochzuladen, nicht vorhanden. Um das Potenzial des Tools zu testen, hat eine Forschungsgruppe eine kleinere Version des Programms mit dieser Bildfunktion erstellt: MiniGPT-4.
MiniGPT-4 füllt derzeit eine Lücke, denn andere Sprachmodelle (LLM) verarbeiten bisher keine Bilder. Insofern zeigt das Programm bereits, was möglich sein wird, wenn Chatbots auch «sehen» können. Und das ist eine ganze Menge: MiniGPT-4 erstellt aus einem hochgeladenen Bild ein Gedicht, kann aus Skizzen für eine Website HTML-Codes erstellen und weiss, was mit deiner kranken Pflanze los ist. Das Programm kannst du derzeit ausprobieren. Ich liess mir diese Chance nicht entgehen und war amüsiert über die Ergebnisse.
Das Programm funktioniert einfach: Du lädst ein Bild hoch und schreibst in kurzen Worten, was MiniGPT-4 damit machen soll. In einem Demo-Video siehst du, was alles möglich ist. Das Programm gibt dir beispielsweise Tipps, um deine kranke Pflanze wieder gesundzupflegen. Und es erstellt dir eine detaillierte Beschreibung von einem Kunstwerk.
Ich stelle mir schon vor, wie ich beim Wandern wissen will, welchen Blumen ich begegne. Und MiniGPT-4 sagt mir dann, ob ich daraus den nächsten Erkältungstee kochen kann, oder mich nur vergiften würde …
Ich fange aber mit etwas Harmloseren an. Anhand eines Fotos meines Lieblingsgerichts Pad Thai möchte ich mir das Rezept ausspucken lassen.
Der Chatbot versteht und antwortet auf Englisch. Deshalb habe ich jene Passagen ins Deutsche übersetzt.
Ich nehme ein Foto des Nudelgerichtes und schreibe:
Wie lautet das Rezept für dieses Gericht?
Die Antwort von MiniGPT-4 ist zwar kurz und bündig, aber nicht wie erhofft:
Bei diesem Gericht scheint es sich um ein Pfannengericht mit Huhn, Nudeln und Limette zu handeln. Es wird wahrscheinlich aus einer Kombination von Zutaten wie Huhn, Nudeln und Limette zubereitet. Das Gericht kann auch mit einer Beilage aus Reis oder einer anderen Stärke serviert werden. Es ist wahrscheinlich ein beliebtes Gericht in Südostasien.
MiniGPT-4 formuliert sehr vorsichtig. Aber nicht genau das, was ich mir erhofft hatte. Ich kann direkt an die Konversation anknüpfen und werde konkreter:
Wie bereite ich es zu?
Und werde mit einem Rezept belohnt (Betonung auf ein Rezept):
Für dieses Gericht benötigst du folgende Zutaten:
Anleitung:
Gut. Irgendwie etwas halbfertig und nicht ganz korrekt. Butter gehört nicht unbedingt in das Rezept. Dafür fehlt mir Tamarindenpaste. Und Ei. Nachkochen würde ich es also (vorläufig) nicht, es kommt aber schon ziemlich nah ran. Und das anhand eines Fotos. Schon ziemlich beeindruckend.
Das Programm soll anhand eines Bildes auch Songzeilen und Gedichte verfassen können. Ich nehme ein selbst gemaltes Bild und lasse mir daraus ein paar romantische Zeilen erstellen. Ich beauftrage MiniGPT-4:
Erstelle mir ein Gedicht aus diesem Bild
Das Ergebnis:
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair
\The blue and white checkerboard pattern
Creates a fun and playful atmosphere
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair
Ich schmunzle. Das Gedicht ist in zwei Minuten entstanden. Spannend, was MiniGPT-4 so alles herauslesen kann. Dem guten Goethe macht das Programm aber wohl noch keine Konkurrenz.
Ich mag Rock-Musik. Zum Beispiel die der Foo Fighters. Mit Namen bin ich aber immer ganz schlecht. Abgesehen von Dave Grohl und seinem verstorbenen Schlagzeuger Taylor Hawkins habe ich keine Ahnung, wie die Bandmitglieder heissen. Ein Fall für Detektiv MiniGPT-4. Ich lade ein Bandfoto hoch, frage nach deren Namen und lasse das Programm rechnen.
Ich frage erst, wer das auf dem Bild ist und MiniGPT-4 erkennt die Personen gleich als Band Foo Fighters. Nach weiteren Fragen nennt mir das Programm tatsächlich alle Mitglieder. Wahrscheinlich eher aufgrund des Vorwissens, wer Mitglied der Foo Fighters ist, da die Reihenfolge ihrer Namen nicht mit dem Bild übereinstimmt.
Die Antworten sind nicht immer perfekt, aber definitiv beeindruckend.
Mein Kopf sprudelt über vor weiteren Ideen. Findet MiniGPT-4 vielleicht auch heraus, was für einen Kuchen ich aus Zutaten in meinem Vorratsschrank backen könnte? Oder kennt spannende Fakten zu Kunstwerken, die ich im Museum entdecke? Oder …
Du hast bestimmt selbst einige Ideen. Lass mich in den Kommentaren wissen, was du MiniGPT-4 gefragt hast, und ob du mit den Ergebnissen zufrieden bist.
Seit ich einen Stift halten kann, kritzel ich die Welt bunt. Dank iPad kommt auch die digitale Kunst nicht zu kurz. Daher teste ich am liebsten Tablets – für die Grafik und normale. Will ich meine Kreativität mit leichtem Gepäck ausleben, schnappe ich mir die neuesten Smartphones und knippse drauf los.