Nouveautés + tendances

Intelligence artificielle : les modèles linguistiques font des analogies avec les humains

Spektrum der Wissenschaft
6/8/2023
Traduction: traduction automatique

La capacité à penser par analogie est essentielle à l'intelligence et à la créativité humaines. Un trio de chercheurs de l'Université de Californie a étudié la capacité de GPT-3 à résoudre de nouveaux problèmes du premier coup.

De la résolution de problèmes complexes de la vie quotidienne à l'invention scientifique, en passant par la création, les gens utilisent la capacité à tirer des conclusions logiques à partir de similitudes. Les spécialistes parlent de "raisonnement analogique". Le psychologue cognitif et poète Keith James Holyoak, la psychologue cognitive Hongjing Lu et le chercheur en neurosciences et IA Taylor Webb de l'Université de Californie à Los Angeles (UCLA) ont voulu savoir si les machines étaient capables, comme les humains, de résoudre des tâches et des problèmes auxquels elles n'avaient jamais été confrontées auparavant.

Pour ce faire, les chercheurs ont confronté le modèle de langage d'IA GPT-3, connu notamment pour le chatbot ChatGPT, à des tâches nécessitant de faire des analogies et ont comparé ses capacités à celles de sujets humains. L'équipe a constaté que le modèle linguistique atteignait un niveau égal ou supérieur à celui des sujets humains. C'est ce qu'ils rapportent aujourd'hui dans la revue scientifique "Nature Human Behaviour".

Pour leur test, les chercheurs ont utilisé la variante text-davinci003 du modèle "Generative Pre-trained Transformer" (GPT). L'homme et la machine devaient compléter des matrices numériques de manière cohérente ("matrix reasoning"), compléter des séries de lettres selon le principe de similitude ("letter string analogies") et faire des inférences par analogie littérale. Dans ces trois blocs de tâches, le modèle linguistique était légèrement supérieur aux candidats humains. "GPT-3 a surpassé les sujets humains lors de l'examen et a présenté des signatures comportementales spécifiquement similaires à celles des humains à travers les types de tâches", indique l'article scientifique.

Au total, 57 étudiants de l'UCLA ont participé à la série de tests pour la comparaison. Ils ont utilisé comme base des problèmes auxquels ni les participants humains ni la machine n'avaient pu être confrontés auparavant, puisqu'ils avaient été développés spécialement pour l'étude. Pour compléter des matrices de nombres et de motifs, GPT-3 a atteint une précision de 80 pour cent, alors que les sujets humains sont restés en moyenne juste en dessous de 60 pour cent. Pour compléter des séries de lettres, l'homme et la machine étaient presque à égalité, avec une légère avance de GPT-3. Le modèle vocal a atteint une précision d'environ 50 pour cent.

Les capacités humaines sont très diversifiées

Mais les participants ont obtenu des résultats très différents d'un individu à l'autre : alors que certains se sont montrés totalement incapables de résoudre les tâches, d'autres ont obtenu une précision de 90 pour cent. La moyenne de toutes les personnes testées a cependant fait baisser le résultat global par rapport aux 90 pour cent de précision de GPT-3, pour atteindre une précision de 80 pour cent seulement, car 25 participants au test ont obtenu des résultats parfois nettement inférieurs à la performance de la machine. Dans le quatrième bloc d'exercices, où une histoire était présentée et où il fallait choisir l'analogue parmi deux récits similaires, une grande partie des étudiants a atteint une précision parfaite. Le score moyen de tous les testés humains a nettement dépassé celui de GPT-3 : le système d'IA a obtenu environ 70 pour cent de réussite dans le bloc des histoires, alors que le score moyen de tous les étudiants testés était de plus de 80 pour cent. Apparemment, la machine n'était pas capable de reconnaître le lien de cause à effet.

Les tâches étaient toujours sous forme de texte ou, dans le cas des matrices basées sur les nombres, étaient introduites par une demande de texte. Ces dernières s'inspiraient étroitement des matrices progressives plus connues de John C. Raven, publiées en 1936. Ce type de matrice sans langage est utilisé pour mesurer l'intelligence humaine en général, par exemple lorsqu'il s'agit d'évaluer la capacité de raisonnement abstrait. Les matrices progressives de Raven (RPM) sont utilisées dans les tests d'intelligence classiques pour les personnes à partir de cinq ans jusqu'à un âge avancé. Le jeu de test se compose de 60 questions à choix multiples de difficulté croissante. Pour une séquence de chiffres, six compléments possibles sont mentionnés, parmi lesquels les personnes testées peuvent choisir.

Limitations des capacités de GPT-3

Les chercheurs notent qu'il existe toutefois quelques limites quant aux capacités réelles du modèle linguistique : Ainsi, GPT-3 ne serait pas capable d'imiter le comportement humain par analogie dans tous les domaines. Par exemple, le modèle purement textuel ne possède pas l'expérience physique du monde, qui permet aux humains d'apprendre et de tirer de nouvelles conclusions à partir d'accidents et d'erreurs. Selon les chercheurs, il est également important de noter que le GPT-3 a une capacité limitée à évaluer les analogies en termes de relations de cause à effet. Or, cela est important pour détecter des similitudes lointaines lors de la comparaison entre les histoires.

Les essais étaient en outre limités à des processus qui pouvaient être exécutés dans un horizon temporel gérable et localisé. Les humains, en revanche, seraient capables de puiser des sources utiles dans leur mémoire à long terme et de développer de nouveaux concepts sur la base d'une multitude d'analogies individuelles. Mais contrairement aux humains, le GPT-3 ne dispose pas d'une mémoire à long terme pour des incidents spécifiques. Cela limite sa capacité à identifier des similitudes utiles par rapport à un problème existant. La taille de ce que l'on appelle la fenêtre contextuelle joue un rôle : la fenêtre contextuelle est un tampon qui détermine quel volume de texte peut être traité de manière compréhensible dans le contexte. Plus les passages de texte cohérents qu'un grand modèle linguistique peut traiter sont longs, plus il est capable de former de longues "chaînes de pensées" et plus il pourrait théoriquement "fouiller dans sa mémoire" pour trouver des analogies appropriées.

Les nouveaux modèles de langage ont une mémoire à long terme plus importante «» que GPT-3

Les nouveaux modèles de langage disposent parfois d'une mémoire tampon de contexte bien plus importante que celle de GPT-3, qui date de 2019. Alors que GPT-3 ne peut accéder qu'à environ 2048 tokens (soit environ 2000 mots en anglais et nettement moins en allemand), GPT-4 dispose déjà de 32 000 tokens de mémoire tampon de contexte (jusqu'à 32 000 mots en anglais). Le modèle Claude d'Anthropic peut accéder à plus de 100 000 tokens et le nouveau Claude 2 devrait même, dans un avenir proche, pouvoir traiter 200 000 tokens sans perte de contexte, soit la taille de livres entiers.

Au cours de la période de recherche, les modèles les plus récents n'étaient cependant pas encore disponibles. Lorsque les chercheurs ont soumis leur travail à "Nature" en décembre 2022, ChatGPT venait juste de sortir et GPT-4 était encore de la musique d'avenir. Par conséquent, ils n'ont pas pu tenir compte des derniers développements, qui se sont récemment accélérés. Les affirmations des chercheurs et de la chercheuse dans l'article concernant la mémoire du modèle linguistique étudié doivent donc être considérées avec réserve à l'heure actuelle. Les auteurs de l'article abordent le problème en marge et mentionnent dans une annexe ajoutée ultérieurement qu'un test rudimentaire avec GPT-4 a montré que ce système donnait encore de bien meilleurs résultats que GPT-3. Ainsi, la conclusion du groupe de recherche est claire : "Nos résultats indiquent que la capacité de trouver des solutions à un large éventail de problèmes d'analogie, du premier coup et sans contact préalable, commence à émerger avec de grands modèles de langage comme GPT-3."

Spectre des sciences

Nous sommes partenaires de Spectre des Sciences et souhaitons vous rendre les informations fondées plus accessibles. Suivez Spectre des Sciences si vous aimez ses articles.

[[small:]]


Photo de couverture : Shutterstock / Peshkova

Cet article plaît à 16 personne(s)


User Avatar
User Avatar

Des experts de la science et de la recherche rendent compte des dernières découvertes dans leur domaine – de manière compétente, authentique et compréhensible.


Informatique
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

1 commentaire

Avatar
later