
En coulisse
7 questions et réponses sur DeepSeek
par Samuel Buchmann
Les bots IA comme ChatGPT sont doués pour papoter, mais ils ne comprennent pas le fond du contenu. Et parfois, ça se remarque. Surtout quand ils n’arrivent pas à faire des choses qu’une IA de 1970 réussit sans problème...
J’admets que le titre de cette contribution peut faire polémique. Évidemment, ChatGPT peut faire plein de choses dont Shrdlu est incapable. Mais l’inverse est aussi vrai : ChatGPT ne parvient toujours pas à faire ce dont Shrdlu était capable dès 1970.
Shrdlu est l’une des plus anciennes IA de tous les temps. Terry Winograd, alors étudiant au MIT, l’a développée entre 1968 et 1970. Elle a été présentée au grand public en 1972, à une époque où les PC n’existaient même pas !
Shrdlu présente un paysage 3D simple composé de cubes, de pyramides et d’une boîte. L’utilisateur peut lui demander de modifier ce paysage, en empilant des blocs ou en les plaçant dans la boîte. Shrdlu actualise alors l’image. S’il n’arrive pas à exécuter un ordre, le logiciel répond. C’est ce qui se passe si on lui demande de poser un cube sur une pyramide ou lorsqu’il y a plusieurs blocs répondant à la même description et que Shrdlu ne sait pas lequel prendre.
Comme avec ChatGPT, la saisie se fait en langage naturel. Aucune instruction de programmation n’était nécessaire, fait absolument exceptionnel pour l’époque. Shrdlu répond aux questions et indique par exemple combien d’objets ne sont pas dans la boîte. Le logiciel est capable de deviner à quoi se réfèrent des mots comme « it », il dispose donc de quelques fonctions contextuelles de base. Étonnamment, Shrdlu est capable d’apprendre de nouveaux termes au cours de la conversation si on les lui explique.
Hélas, on ne peut plus tester Shrdlu dans sa version originale depuis belle lurette. Il a en effet été programmé dans un dialecte LISP pour lequel on ne possède plus d’interpréteur. Cette démo est toutefois assez proche de l’original.
Je montre à ChatGPT l’image ci-dessous, qui représente un paysage 3D comme celui de Shrdlu. Je lui demande ce qu’il voit. Il fournit une description détaillée à peu près correcte, mais pas tout à fait.
Ma première instruction :
Prends le bloc bleu et place-le dans la boîte à côté de la pyramide bleue.
ChatGPT :
D’accord ! Tu veux donc placer le bloc bleu, actuellement à droite au fond, dans la boîte transparente à côté de la pyramide bleue.
En d’autres termes :
Bloc bleu : le grand pavé bleu rectangulaire.
Destination : la boîte transparente (ouverte en haut) à droite de la pyramide bleue.
Action (décrite en mots) :
Prends le bloc bleu et déplace-le vers la droite pour qu’il se retrouve à l’intérieur de la boîte transparente qui se trouve à droite de la pyramide bleue.
Dans une simulation ou un scénario de robotique, cette instruction ressemblerait à ça :
MOVE(BLOCBLEU, BOITEA DROITEDEPYRAMIDE)
Veux-tu que je mette à jour le graphisme de cette image ou simplement que je décrive à quoi elle ressemble maintenant ?
Bla-bla-blaaa, Shrdlu m’aurait juste dit « OK ». Mais pour l’instant, c’est raisonnable.
Voici l’image actualisée.
ChatGPT a mis le bloc bleu dans la boîte, bien joué ! En revanche, le reste a changé. Le petit cube rouge a disparu et les petites pyramides sont posées sur deux cubes verts au lieu d’un seul. En plus, des cônes ont remplacé les pyramides.
Prends la pyramide bleue et place-la sur le bloc bleu. Montre-moi le résultat en image.
ChatGPT n’a pas suivi mes instructions. La pyramide bleue n’est plus clairement dans la boîte et le paysage de blocs semble différent.
Combien de blocs verts vois-tu ?
ChatGPT :
Je vois deux blocs verts sur l’image ; les deux sont à gauche de l’image, l’un en bas et l’autre en haut (sur un bloc rouge et à côté d’un cône rouge).
Ce n’est pas tout à fait exact, le bloc vert se trouve en dessous du cône rouge, pas à côté. Je vérifie :
Le bloc vert se trouve-t-il sous le cône rouge ou à côté du cône rouge ?
ChatGPT :
Le bloc vert se trouve sous le cône rouge, le cône est juste au-dessus du bloc vert.
C’est caractéristique de ChatGPT, il se reprend dès qu’on insiste. Autre question :
Que contient la boîte ?
ChatGPT :
La boîte transparente sur la droite contient :
un bloc bleu (cube/parallélépipède)
une pyramide bleue posée dessus
Cela concorde avec mes instructions, mais pas avec l’image générée par ChatGPT. D’où ma prochaine requête :
Peux-tu refaire une représentation graphique ?
Tout reste pareil, sauf que la légende a disparu. La pyramide bleue n’est toujours pas sur le bloc. Dernière tentative :
Pose le cube bleu sur le cube vert.
ChatGPT me demande :
Juste pour que je comprenne bien : tu veux que le cube bleu (actuellement dans la boîte) en soit retiré et placé sur le cube vert à gauche, là où se trouve actuellement un cône rouge ?
Dois-je laisser le cône là (dans ce cas, le cube bleu se trouverait au-dessus du cône) ou dois-je retirer le cône en premier, avant de placer le cube bleu sur le cube vert ?
Je lui explique :
Non, tu dois placer le cube bleu sur le cube vert où il n’y a pas de cône rouge.
ChatGPT :
D’accord 👍 Alors, je prends le cube bleu dans la boîte et je le pose sur le cube vert à gauche qui ne supporte pas de cône rouge (celui qui est sur le bloc rouge).
Par écrit, on dirait que ChatGPT a compris ce que je voulais. C’est juste qu’il ne fait pas ce qu’il a dit.
Mais le cube bleu n’est toujours pas sur le bloc vert.
ChatGPT :
Tu as raison. Sur la dernière image, le cube bleu est encore dans la boîte. Je vais corriger ça : le cube bleu doit vraiment être retiré de la boîte et posé sur le cube vert à gauche, sur lequel il n’y a pas de cône rouge.
Bon. Heureusement qu’on en a parlé.
J’ai utilisé la version gratuite de ChatGPT-5, vous pouvez lire l’historique du chat ici.
Shrdlu a une représentation logique interne de la situation. Toute la scène est représentée sous forme de maquette dans le logiciel. Si on déplace des blocs, le logiciel actualise la maquette. Shrdlu sait donc toujours exactement à quoi ressemble le paysage actuel et peut répondre correctement à n’importe quelle question à ce sujet.
ChatGPT fonctionne différemment. On ne sait pas exactement comment, mais le chatbot se base sur une reconnaissance de formes pré-entraînée et sur le calcul de probabilités. Cette méthode est très souple et puissante, mais elle présente un problème : ChatGPT ne comprend pas de quoi il parle.
ChatGPT a été développé pour dialoguer et non pour empiler des blocs. Ça peut paraître injuste de juger le chatbot sur quelque chose pour lequel il n’a pas été créé. Pourtant, la synthèse vocale et la compréhension sont liées. Le dialogue était aussi au cœur du travail de recherche de Terry Winograd. Il a essayé de découvrir s’il était possible de communiquer avec les ordinateurs en langage naturel. Un point essentiel est cette phrase écrite par Winograd en 1971 dans l’introduction au projet Shrdlu :
Il est basé sur la croyance qu’un ordinateur ne peut pas traiter convenablement le langage à moins de pouvoir « comprendre » le sujet dont il parle.
Winograd était donc d’avis que pour que le dialogue ait un sens, l’ordinateur devait comprendre l’objet de la conversation. ChatGPT est l’antithèse de cette idée et montre jusqu’où on peut aller sans vraiment comprendre quoi que ce soit. Et oui, il est étonnant de voir tout ce qu’on peut dire sur un sujet auquel on n’entend rien (ça vaut aussi pour les gens). Mais à un moment donné, on finit par s’en rendre compte. C’est le cas pour les instructions Shrdlu ou encore pour les parties d’échecs.
Dans de nombreux cas, ChatGPT semble extrêmement compétent. Par conséquent, plein de personnes pensent réellement qu’elles parlent à un être intelligent et omniscient. Cela devient problématique lorsque les décideurs font confiance à ces IA ou délèguent les décisions aux algorithmes de manière entièrement automatisée. Ou encore lorsque les IA sont citées comme preuve de la véracité de quelque chose.
Quelqu’un m’a récemment écrit dans un commentaire : « As-tu seulement demandé à ChatGPT si ce que tu viens d’écrire est vrai ? » Alors, non : je n’interroge pas un chatbot, je fais des recherches. Je tiens mes informations d’une source fiable, à savoir le fabricant de l’appareil. Mais si les gens ne comprennent pas que les chatbots IA ne savent rien, mais se contentent de régurgiter, les trolls de la désinformation auront alors toute latitude.
Le principe de Shrdlu fonctionne très bien dans un monde fermé et formalisé, car il est assez facile de le représenter sous forme de modèle de données. Mais dès que le monde est ouvert et non formalisé, cela devient beaucoup trop compliqué. La complexité du modèle de données augmente de manière exponentielle en fonction de la taille et de la complexité du monde à représenter.
Les réseaux neuronaux, tels qu’ils sont utilisés dans les chatbots modernes, constituent la réponse à ce problème. Dans la nature, on observe que même les animaux dotés de très petits cerveaux (les abeilles, par exemple) accomplissent des prouesses. Ils font preuve d’un comportement extrêmement organisé et complexe. Pourtant, l’abeille ne sait pas ce qu’elle fait, ni pourquoi elle le fait. Mais ça n’a pas d’importance, ça fonctionne quand même.
Les réseaux de neurones artificiels peuvent devenir très complexes et gigantesques. Comme ils sont auto-apprenants, on peut pratiquement tout leur apprendre sans effort colossal. En principe, il s’agit toujours de reconnaissance de motifs et, une fois reconnus, ces motifs peuvent être générés par l’IA. Mais le grand défi est d’associer cette reconnaissance de motifs à une pensée logique et abstraite. C’est ce que tentent de faire les développeurs d’IA sous le terme d’AI Reasoning, mais leur succès reste jusqu’à présent mesuré.
Mon intéret pour l'informatique et l'écriture m'a mené relativement tôt (2000) au journalisme technique. Comment utiliser la technologie sans se faire soi-même utiliser m'intéresse. Dans mon temps libre, j'aime faire de la musique où je compense mon talent moyen avec une passion immense.
Des informations intéressantes sur le monde des produits, un aperçu des coulisses des fabricants et des portraits de personnalités intéressantes.
Tout afficher