Novità e trend

Intelligenza artificiale: i modelli linguistici formano analogie come gli umani

Spektrum der Wissenschaft
6.8.2023
Traduzione: tradotto automaticamente

La capacità di pensare per analogie è essenziale per l'intelligenza e la creatività umana. Un trio di ricercatori dell'Università della California ha studiato la capacità del GPT-3 di risolvere nuovi problemi al primo tentativo.

Dalla risoluzione di problemi complessi nella vita di tutti i giorni al lavoro creativo e all'invenzione scientifica, le persone sfruttano la capacità di trarre conclusioni logiche dalle somiglianze. Gli esperti si riferiscono a questo fenomeno come "ragionamento analogico". Lo psicologo cognitivo e poeta Keith James Holyoak, lo psicologo cognitivo Hongjing Lu e il ricercatore sul cervello e l'intelligenza artificiale Taylor Webb dell'Università della California di Los Angeles (UCLA) hanno voluto scoprire se le macchine, come gli esseri umani, sono in grado di risolvere compiti e problemi che non hanno mai incontrato prima.

A tal fine, i ricercatori hanno messo il modello linguistico AI GPT-3, noto soprattutto per il chat bot ChatGPT, di fronte a compiti che richiedevano la formazione di analogie e hanno confrontato le sue capacità con quelle di soggetti umani. Il team ha scoperto che il modello linguistico ha raggiunto un livello pari o addirittura superiore alle prestazioni dei partecipanti al test umano. Questo risultato è stato riportato nella rivista "Nature Human Behaviour".

Per la serie di test, i ricercatori hanno utilizzato la variante text-davinci003 del modello Generative Pre-trained Transformer (GPT). Gli esseri umani e le macchine dovevano completare matrici di numeri ("ragionamento matriciale"), completare stringhe di lettere secondo il principio di somiglianza ("analogie di stringhe di lettere") e trarre conclusioni analogiche letterali. In questi tre blocchi di compiti, il modello linguistico è risultato leggermente superiore ai candidati umani al test. Secondo l'articolo, "il GPT-3 ha superato i soggetti umani dello studio e ha mostrato firme comportamentali specificamente simili a quelle umane in tutti i tipi di compiti".

Un totale di 57 studenti dell'UCLA ha partecipato alla serie di test per il confronto. Sono stati utilizzati problemi con cui né i partecipanti umani al test né la macchina avrebbero potuto entrare in contatto in precedenza, in quanto sviluppati appositamente per lo studio. Nel completare matrici di numeri e schemi, il GPT-3 ha raggiunto un'accuratezza dell'80%, mentre i soggetti umani si sono attestati in media al di sotto del 60%. Quando si trattava di completare righe di lettere, gli esseri umani e le macchine erano quasi alla pari, con GPT-3 in leggero vantaggio, mentre il modello linguistico raggiungeva un'accuratezza di circa il 50%.

Le abilità umane erano molto diffuse

Tuttavia, i partecipanti hanno ottenuto risultati molto diversi da un punto di vista individuale: mentre alcuni non sono riusciti a risolvere i compiti, altri hanno raggiunto un'accuratezza del 90 percento. Tuttavia, il valore medio di tutti i partecipanti al test ha fatto scendere il risultato complessivo a un'accuratezza di solo l'80% rispetto all'accuratezza di circa il 90% del GPT-3, dato che 25 partecipanti al test hanno ottenuto risultati che in alcuni casi erano significativamente inferiori alle prestazioni della macchina. Nel quarto blocco di compiti, in cui veniva presentata una storia e la storia analogica doveva essere selezionata tra due storie simili, una grande percentuale di studenti ha raggiunto una precisione perfetta. Il punteggio medio di tutti i soggetti umani ha superato nettamente il GPT-3: il sistema di intelligenza artificiale ha raggiunto circa il 70% di accuratezza nel blocco della storia, mentre il punteggio medio di tutti gli studenti testati è stato superiore all'80%. A quanto pare, la macchina non era in grado di riconoscere la relazione causale.

I compiti erano tutti in forma testuale o, nel caso delle matrici basate sui numeri, erano introdotti da una richiesta di testo. Queste ultime erano strettamente modellate sulle più note matrici progressive sviluppate da John C. Raven nel 1936. Questo tipo di matrice, priva di linguaggio, viene utilizzata per misurare l'intelligenza umana in generale, ad esempio quando si tratta di classificare la capacità di pensiero astratto. Le Matrici Progressive di Raven (RPM) sono utilizzate nei classici test di intelligenza per persone di età compresa tra i cinque anni e la terza età. Il test consiste in 60 domande a scelta multipla con livelli di difficoltà crescenti. Vengono fornite sei possibili aggiunte per una sequenza di numeri, tra cui gli intervistati possono scegliere.

Limitazioni alle capacità del GPT-3

I ricercatori fanno notare, tuttavia, che ci sono alcune limitazioni per quanto riguarda le effettive capacità del modello linguistico: Il GPT-3 non è in grado di imitare il comportamento analogico umano in tutte le aree, ad esempio. Ad esempio, il modello puramente testuale manca dell'esperienza fisica nel mondo che consente agli esseri umani di imparare da incidenti ed errori e di trarre nuove conclusioni. Secondo i ricercatori, un altro dato importante è che il GPT-3 è in grado di valutare le analogie basate su relazioni causali solo in misura limitata. Tuttavia, questo è importante per individuare analogie lontane quando si confrontano storie diverse.

Le prove erano inoltre limitate a processi che potevano essere eseguiti in un orizzonte temporale gestibile e localmente limitato. Gli esseri umani, invece, sono in grado di attingere a fonti utili dalla loro memoria a lungo termine e di sviluppare nuovi concetti sulla base di un gran numero di analogie individuali. A differenza degli esseri umani, però, la GPT-3 non ha una memoria a lungo termine per episodi specifici. Questo limita la sua capacità di riconoscere analogie utili con un problema esistente. La dimensione della cosiddetta finestra di contesto gioca un ruolo importante: la finestra di contesto è un buffer che determina la quantità di testo che può essere elaborata nel contesto. Più lunghi sono i passaggi di testo coerenti che un modello linguistico di grandi dimensioni può elaborare, più lunghe sono le "catene di pensiero" che è in grado di formare e più in profondità potrebbe teoricamente "rovistare nella sua memoria" per trovare analogie adeguate.
»

I nuovi modelli linguistici hanno una memoria a lungo termine «più grande di quella di GPT-3

I nuovi modelli linguistici a volte hanno un buffer di contesto molto più grande di GPT-3, che risale al 2019. Mentre GPT-3 può accedere solo a circa 2048 token (cioè circa 2000 parole in inglese e molto meno in tedesco), GPT-4 ha già un buffer di contesto di 32.000 token (fino a 32.000 parole in inglese). Il modello Claude di Anthropic può accedere a più di 100.000 token e il nuovo Claude 2 dovrebbe essere in grado di elaborare 200.000 token nel prossimo futuro senza perdere il contesto, ovvero le dimensioni di interi libri.

Nel periodo della ricerca, tuttavia, i nuovi modelli non erano ancora disponibili. Quando i ricercatori hanno inviato il loro lavoro a Nature nel dicembre 2022, ChatGPT era appena stato pubblicato e GPT-4 era ancora lontano. Di conseguenza, non è stato possibile prendere in considerazione gli ultimi sviluppi, che di recente hanno acquisito un notevole slancio. Le affermazioni fatte dagli scienziati nell'articolo sulla dimenticanza del modello linguistico analizzato devono quindi essere considerate con riserva in questa fase. Di sfuggita, gli autori dell'articolo accennano al problema in sé e menzionano in un'appendice aggiunta successivamente che un test rudimentale eseguito con GPT-4 ha dimostrato che questo sistema ha fornito risultati significativamente migliori di GPT-3. La conclusione del gruppo di ricerca è chiara: "I nostri risultati indicano che i modelli linguistici di grandi dimensioni come GPT-3 stanno iniziando a mostrare la capacità di trovare soluzioni a un'ampia gamma di problemi di analogia in modo immediato e senza punti di contatto precedenti".

Spettro della Scienza

Siamo partner di Spektrum der Wissenschaft e vogliamo renderti più accessibile l'informazione scientifica. Segui Spektrum der Wissenschaft se ti piacciono gli articoli.

[[small:]]


Immagine di copertina: Shutterstock / Peshkova

A 16 persone piace questo articolo


User Avatar
User Avatar

Gli esperti della scienza e della ricerca riferiscono sulle ultime scoperte nei loro campi – competenti, autentiche e comprensibili.


Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

1 commento

Avatar
later