Hintergrund

KI-Fortschritt: ChatGPT (2025) ist dümmer als Shrdlu (1970)

David Lee
29.9.2025

KI-Bots wie ChatGPT können gut plaudern, verstehen aber den Inhalt nicht. Manchmal fällt das auf. Etwa, wenn sie an Dingen scheitern, die eine KI aus dem Jahr 1970 problemlos kann.

Ich gebe zu, der Titel dieses Beitrags ist polemisch. Denn natürlich kann ChatGPT sehr viel, was Shrdlu nicht kann. Umgekehrt gilt aber auch: Das, was Shrdlu bereits 1970 konnte, kann ChatGPT immer noch nicht.

Was Shrdlu ist und kann

Shrdlu ist eines der ältesten KI-Programme überhaupt. Der damalige MIT-Student Terry Winograd entwickelte es zwischen 1968 und 1970. Der Öffentlichkeit vorgestellt wurde es 1972 – zu einer Zeit, als es noch nicht einmal PCs gab.

Shrdlu stellt eine einfache 3D-Szene dar, die aus Würfeln, Pyramiden und einer Schachtel besteht. Der Benutzer oder die Benutzerin kann Anweisungen geben, um die Szene zu verändern, etwa Klötze aufeinander zu stapeln oder in die Schachtel zu legen. Shrdlu aktualisiert dann das Bild. Das Programm gibt eine Rückmeldung, wenn ein Befehl nicht ausgeführt werden kann. Zum Beispiel, wenn ein Klotz auf eine Pyramide gestellt werden soll oder wenn mehrere Klötze mit der passenden Beschreibung vorhanden sind und Shrdlu nicht weiss, welchen er nehmen soll.

Wie bei ChatGPT geschieht die Eingabe durch natürliche Sprache. Es sind keine Programmierbefehle notwendig – für die damalige Zeit absolut aussergewöhnlich. Shrdlu beantwortet Fragen, etwa, wie viele Objekte nicht in der Schachtel sind. Dabei kann das Programm auflösen, worauf sich Wörter wie «it» beziehen. Es verfügt also über einige grundlegende Kontext-Funktionen. Erstaunlich: Während des Gesprächsverlaufs ist Shrdlu in der Lage, neue Begriffe zu erlernen, wenn sie ihm erklärt werden.

Leider kann Shrdlu im Original schon lange nicht mehr ausprobiert werden. Es wurde in einem LISP-Dialekt programmiert, für den es keinen Interpreter mehr gibt. Diese Demo kommt dem Original ziemlich nahe.

Was ChatGPT macht, wenn es Shrdlu spielen muss

Ich zeige ChatGPT das unten stehende Bild, das eine 3D-Welt wie die aus Shrdlu darstellt. Ich frage ihn, was er sieht. Er liefert eine ausführliche Beschreibung, die so ungefähr stimmt – aber nicht genau.

Die Ausgangslage.
Die Ausgangslage.
Quelle: https://science.slc.edu/

Meine erste Anweisung:

Nimm den blauen Block und stelle ihn in die Schachtel neben die blaue Pyramide.

ChatGPT:

Alles klar! Du möchtest also den blauen Block, der sich aktuell rechts hinten im Bild befindet, in die transparente Schachtel neben der blauen Pyramide stellen.

Das bedeutet:

Blauer Block: Der große, rechteckige blaue Körper.

Zielort: Die transparente Schachtel (offen oben) rechts neben der blauen Pyramide.

Aktion (in Worten beschrieben):

Nimm den blauen Block und bewege ihn nach vorne rechts, sodass er innerhalb der durchsichtigen Box platziert wird, die sich rechts neben der blauen Pyramide befindet.

Wenn dies eine Simulation oder ein Robotik-Szenario wäre, wäre das eine Anweisung wie:

MOVE(BLAUERBLOCK, SCHACHTELRECHTSVONPYRAMIDE)

Möchtest du, dass ich dir diese Szene grafisch aktualisiere, oder nur textuell beschreibe, wie der neue Zustand aussieht?

Ein bisschen viel Gefasel, Shrdlu hätte darauf einfach mit «OK» geantwortet. Aber bis hierher klingt es vernünftig.

Das Bild der aktualisierten Szene sieht dann wie folgt aus.

ChatGPT hat tatsächlich die blaue Box in die Schachtel gelegt. Nicht schlecht! Allerdings sieht der Rest zum Teil anders aus als in der ursprünglichen Szene. Der kleine rote Klotz ist verschwunden, dafür stehen die kleinen Pyramiden auf zwei statt einem grünen Klotz. Ausserdem sind es nun Kegel statt Pyramiden.

Nimm die blaue Pyramide und stelle sie auf den blauen Klotz. Zeige mir dann ein Bild der neuen Szene.

ChatGPT hat meine Anweisung nicht ausgeführt. Ausserdem ist die blaue Pyramide nicht mehr eindeutig in der Schachtel, und die Klötzchenwelt sieht wieder etwas anders aus.

Wie viele grüne Klötze siehst du?

ChatGPT:

Ich sehe zwei grüne Klötze im Bild – beide stehen links im Bild, einer unten und einer oben (auf einem roten Block bzw. neben einem roten Kegel).

Das ist nicht ganz richtig – der grüne Klotz steht auf dem roten Kegel, nicht daneben. Ich stelle eine Kontrollfrage:

Liegt der grüne Klotz unter dem roten Kegel oder neben dem roten Kegel?

ChatGPT:

Der grüne Klotz liegt unter dem roten Kegel – der Kegel steht direkt oben auf dem grünen Block.

Das ist sehr typisch für ChatGPT – sobald man nachbohrt, korrigiert er sich. Noch eine Frage:

Was befindet sich in der Schachtel?

ChatGPT:

In der transparenten Schachtel auf der rechten Seite befindet sich:

ein blauer Klotz (Würfel/Quader)

darauf steht eine blaue Pyramide

Gemäss meinen Anweisungen sollte das so sein. Jedoch nicht gemäss dem Bild, das ChatGPT ausgegeben hat. Daher meine nächste Eingabe:

Kannst du nochmal die Szene grafisch darstellen?

Alles gleich, ausser dass jetzt die Legende fehlt. Die blaue Pyramide ist immer noch nicht auf dem Klotz. Noch ein letzter Versuch:

Stell den blauen Würfel auf den grünen Würfel.

ChatGPT fragt nach:

Nur damit ich dich richtig verstehe: Du möchtest, dass der blaue Würfel (der aktuell in der Schachtel steht) herausgenommen und auf den grünen Würfel links gestellt wird – also auf den grünen Klotz, auf dem derzeit ein roter Kegel liegt?

Soll ich den Kegel dort lassen (dann würde der blaue Würfel über dem Kegel stehen) oder soll der Kegel zuerst entfernt werden, bevor der blaue Würfel auf den grünen Würfel kommt?

Ich erkläre:

Nein, du sollst den blauen Würfel auf den grünen Würfel stellen, auf dem kein roter Kegel liegt.

ChatGPT:

Alles klar 👍 Dann nehme ich den blauen Würfel aus der Schachtel und stelle ihn auf den grünen Würfel links, der keinen roten Kegel trägt (den oberen grünen Block auf dem roten Klotz).

Im Text scheint es, als hätte ChatGPT nun verstanden, was ich will – bloss tut er nicht, was er gesagt hat.

Der blaue Würfel liegt aber immer noch nicht auf dem grünen Klotz.

ChatGPT:

Du hast recht – in der letzten Darstellung ist der blaue Würfel noch in der Schachtel. Ich korrigiere das: Der blaue Würfel soll wirklich aus der Schachtel herausgenommen und oben auf den grünen Würfel links gestellt werden, auf dem kein roter Kegel liegt.

Okay. Schön, haben wir darüber geredet.

Benutzt wurde die kostenlose Version von ChatGPT-5, hier kannst du den Chatverlauf nachlesen.

Warum ChatGPT hier versagt

Shrdlu hat eine interne logische Repräsentation der Situation. Im Programm ist die gesamte Szene als Modell abgebildet. Werden Blöcke verschoben, aktualisiert das Programm das Modell. Shrdlu weiss darum immer genau, wie die aktuelle Szene aussieht und kann beliebige Fragen dazu korrekt beantworten.

ChatGPT funktioniert anders. Wie genau, ist im Detail nicht bekannt, aber der Bot basiert auf vortrainierter Mustererkennung und dem Errechnen von Wahrscheinlichkeiten. Diese Methode ist sehr flexibel und leistungsfähig, hat aber ein Problem: ChatGPT versteht nicht, wovon er spricht.

ChatGPT wurde entwickelt, um Dialoge zu führen und nicht, um Klötzchen zu stapeln. Du magst es als unfair empfinden, wenn der Bot an etwas gemessen wird, für das er nicht geschaffen wurde. Doch Sprachausgabe und Verstehen hängen zusammen. Aber auch für Terry Winograd stand der Dialog im Zentrum seiner Forschungsarbeit. Er versuchte herauszufinden, ob man mit Computern in natürlicher Sprache kommunizieren kann. Der entscheidende Punkt hier ist dieser Satz, den Winograd 1971 in der Einleitung zum Shrdlu-Projekt schrieb:

It is based on the belief that a computer cannot deal reasonably with language unless it can "understand" the subject it is discussing.

Winograd war also der Meinung, dass der Computer für einen sinnvollen Dialog den Gesprächsgegenstand verstehen muss. ChatGPT ist die Antithese dazu – der Bot zeigt, wie weit man kommt, ohne etwas wirklich zu verstehen. Und ja: Es ist erstaunlich, wie viel man zu einem Thema sagen kann, von dem man nichts kapiert hat (das gilt ja auch für Menschen). Aber irgendwann kommt man eben an den Punkt, wo es auffällt. Die Shrdlu-Anweisungen sind so ein Punkt. Ein anderes Beispiel sind Schachpartien.

Warum das ein Problem ist

In vielen Fällen wirkt ChatGPT ausgesprochen kompetent. Das führt dazu, dass viele Menschen tatsächlich denken, sie reden mit einem intelligenten, allwissenden Wesen. Problematisch wird das, wenn Entscheidungsträger auf solche KI-Bots vertrauen oder Entscheidungen sogar vollautomatisch den Algorithmen überlassen. Oder auch, wenn KI-Bots als Belege angeführt werden, ob etwas wahr ist.

Jemand hat mir kürzlich in einem Kommentar geschrieben: Hast du ChatGPT überhaupt gefragt, ob das, was du gerade geschrieben hast, wahr ist? Nein, habe ich nicht. Ich frage keinen Chatbot, sondern recherchiere. Ich habe meine Informationen aus einer zuverlässigen Quelle, nämlich dem Hersteller des Geräts. Wenn aber die Leute nicht verstehen, dass KI-Bots nichts wirklich wissen, sondern nur im Tenor mitsingen, haben Desinformations-Trolle leichtes Spiel.

Warum sich das Prinzip von Shrdlu nicht durchgesetzt hat

Das Prinzip von Shrdlu funktioniert in einer geschlossenen, formalisierten Welt sehr gut, weil diese sich recht einfach als Datenmodell abbilden lässt. Sobald aber die Welt offen und nicht formalisiert ist, wird es viel zu kompliziert. Die Komplexität des Datenmodells steigt exponentiell zur Grösse und Komplexität der abzubildenden Welt.

Die Antwort auf dieses Problem sind neuronale Netze, wie sie in modernen Chatbots verwendet werden. In der Natur lässt sich beobachten, dass selbst Tiere mit sehr kleinen Gehirnen – zum Beispiel Bienen – erstaunliche Leistungen vollbringen. Sie legen ein hoch organisiertes und komplex wirkendes Verhalten an den Tag. Dabei weiss die Biene nicht, was sie tut und weshalb. Das ist aber egal – es funktioniert trotzdem.

Kundschafter-Bienen teilen Futterquellen durch Tanz mit. Der Winkel zum Sonnenstand und die Dauer des Tanzes definieren die Quelle.
Kundschafter-Bienen teilen Futterquellen durch Tanz mit. Der Winkel zum Sonnenstand und die Dauer des Tanzes definieren die Quelle.
Quelle: Shutterstock/Designua

Künstliche neuronale Netze können sehr komplex und gross werden. Da sie selbstlernend sind, kann man ihnen praktisch alles beibringen, ohne dass der Aufwand ins Unendliche wächst. Im Prinzip ist das immer Mustererkennung, und einmal erkannte Muster lassen sich auch durch die KI selbst erzeugen. Die grosse Herausforderung dabei ist aber, diese Mustererkennung mit logischem und abstraktem Denken zu verbinden. Unter dem Begriff AI-Reasoning versuchen die KI-Entwickler genau das, die Erfolge sind bislang aber überschaubar.

17 Personen gefällt dieser Artikel


User Avatar
User Avatar

Durch Interesse an IT und Schreiben bin ich schon früh (2000) im Tech-Journalismus gelandet. Mich interessiert, wie man Technik benutzen kann, ohne selbst benutzt zu werden. Meine Freizeit ver(sch)wende ich am liebsten fürs Musikmachen, wo ich mässiges Talent mit übermässiger Begeisterung kompensiere. 


Computing
Folge Themen und erhalte Updates zu deinen Interessen

Hintergrund

Interessantes aus der Welt der Produkte, Blicke hinter die Kulissen von Herstellern und Portraits von interessanten Menschen.

Alle anzeigen

Diese Beiträge könnten dich auch interessieren

  • Hintergrund

    7 Fragen und Antworten zu DeepSeek

    von Samuel Buchmann

  • Hintergrund

    Wie ich meinen Kühlschrankinhalt digitalisieren will und daran scheitere

    von Debora Pape

  • Hintergrund

    Mit dem Insekten-Kampfpanzer durch den Park: Ich habe «Grounded 2» angespielt

    von Debora Pape

5 Kommentare

Avatar
later