I grandi modelli linguistici non hanno una teoria della mente come gli esseri umani, ma stanno migliorando in compiti progettati per tracciarla.
Gli esseri umani sono esseri complessi. I modi in cui comunichiamo sono molteplici e gli psicologi hanno ideato molti tipi di test per misurare la nostra capacità di dedurre il significato e la comprensione dalle interazioni con gli altri.
I modelli di intelligenza artificiale stanno migliorando in questi test. Una nuova ricerca pubblicata oggi su Nature Human Behavior ha scoperto che alcuni modelli linguistici di grandi dimensioni (LLM) hanno prestazioni pari e in alcuni casi superiori a quelle degli esseri umani quando vengono sottoposti a compiti progettati per testare la capacità di tracciare gli stati mentali delle persone, nota come “teoria della mente”.
Questo non significa che i sistemi di intelligenza artificiale siano effettivamente in grado di capire come ci sentiamo. Ma dimostra che questi modelli si comportano sempre meglio in esperimenti progettati per valutare abilità che gli psicologi ritengono uniche per gli esseri umani. Per saperne di più sui processi che stanno alla base dei successi e dei fallimenti dei LLM in questi compiti, i ricercatori hanno voluto applicare lo stesso approccio sistematico che utilizzano per testare la teoria della mente negli esseri umani.
In teoria, più i modelli di IA sono bravi a imitare gli esseri umani, più utili ed empatici possono sembrare nelle loro interazioni con noi. Sia OpenAI che Google hanno annunciato che assistenti AI potenziati, GPT-4o e Astra sono stati progettati per fornire risposte molto più fluide e naturali rispetto ai loro predecessori. Ma dobbiamo evitare di cadere nella trappola di credere che le loro capacità siano simili a quelle umane, anche se lo sembrano.
“Abbiamo una tendenza naturale ad attribuire stati mentali, mente e intenzionalità a entità che non hanno una mente”, afferma Cristina Becchio, docente di neuroscienze presso l’University Medical Center Hamburg-Eppendorf, che ha collaborato alla ricerca. “Il rischio di attribuire una teoria della mente a grandi modelli linguistici c’è”.
La teoria della mente è un segno distintivo dell’intelligenza emotiva e sociale che ci permette di dedurre le intenzioni delle persone e di impegnarci ed entrare in empatia con gli altri. La maggior parte dei bambini acquisisce questo tipo di abilità tra i tre e i cinque anni di età.
I ricercatori hanno testato due famiglie di modelli linguistici di grandi dimensioni, GPT-3.5 e GPT-4 di OpenAI e tre versioni di Llama di Meta, su compiti progettati per testare la teoria della mente negli esseri umani, tra cui l’identificazione di false credenze, il riconoscimento di passi falsi e la comprensione di ciò che viene sottinteso piuttosto che detto direttamente. Hanno inoltre testato 1.907 partecipanti umani per confrontare le serie di punteggi.
Il team ha condotto cinque tipi di test. Il primo, il compito di allusione, è stato progettato per misurare la capacità di una persona di dedurre le reali intenzioni di un’altra attraverso commenti indiretti. Il secondo, il compito di falsa credenza, valuta se una persona è in grado di dedurre che ci si possa ragionevolmente aspettare che qualcun altro creda a qualcosa che si sa non essere vero. Un altro test ha misurato la capacità di riconoscere quando qualcuno sta facendo un passo falso, mentre un quarto test consisteva nel raccontare storie strane, in cui un protagonista fa qualcosa di insolito, per valutare se si è in grado di spiegare il contrasto tra ciò che è stato detto e ciò che era inteso. È stato inoltre incluso un test per verificare se le persone sono in grado di comprendere l’ironia.
I modelli AI sono stati sottoposti a ciascun test 15 volte in chat separate, in modo da trattare ogni richiesta in modo indipendente, e le loro risposte sono state valutate nello stesso modo utilizzato per gli esseri umani. I ricercatori hanno poi testato i volontari umani e i due gruppi di punteggi sono stati confrontati.
Entrambe le versioni di GPT hanno ottenuto risultati pari o talvolta superiori alla media umana nei compiti che prevedevano richieste indirette, depistaggio e false credenze, mentre GPT-4 ha superato gli umani nei test di ironia, allusione e storie strane. I tre modelli di Llama 2 hanno ottenuto risultati inferiori alla media umana.
Tuttavia, Llama 2, il più grande dei tre modelli Meta testati, ha superato gli esseri umani quando si è trattato di riconoscere gli scenari di falsificazione, mentre GPT ha fornito costantemente risposte errate. Gli autori ritengono che ciò sia dovuto alla generale avversione di GPT a generare conclusioni sulle opinioni, perché i modelli hanno risposto in gran parte che non c’erano abbastanza informazioni per rispondere in un modo o nell’altro.
“Questi modelli non dimostrano certo la teoria della mente di un essere umano”, afferma. “Ma quello che dimostriamo è che qui c’è una competenza per arrivare a inferenze mentalistiche e ragionare sulla mente dei personaggi o delle persone”.
Uno dei motivi per cui le LLM hanno ottenuto questi risultati è che questi test psicologici sono così ben consolidati e quindi è probabile che siano stati inclusi nei loro dati di addestramento, spiega Maarten Sap, assistente alla Carnegie Mellon University, che non ha lavorato alla ricerca. “È davvero importante riconoscere che quando si somministra un test di falsa credenza a un bambino, probabilmente non ha mai visto quel test esatto prima, ma i modelli linguistici potrebbero averlo fatto”, spiega.
In definitiva, non abbiamo ancora capito come funzionano i LLM. Ricerche come questa possono aiutarci ad approfondire la comprensione di ciò che questo tipo di modelli può o non può fare, afferma Tomer Ullman, scienziato cognitivo dell’Università di Harvard, che non ha lavorato al progetto. Ma è importante tenere a mente cosa stiamo realmente misurando quando sottoponiamo i LLM a test come questi. Se un’intelligenza artificiale supera un essere umano in un test progettato per misurare la teoria della mente, non significa che l’intelligenza artificiale abbia una teoria della mente”.
Non sono contrario ai benchmark, ma faccio parte di un gruppo di persone che sono preoccupate del fatto che stiamo raggiungendo la fine dell’utilità del modo in cui abbiamo usato i benchmark“, dice Ullman. “Comunque questa cosa abbia imparato a superare il benchmark, non è – non credo – un modo simile a quello umano”.