I modelli di IA possono superare gli umani nei test per l’identificazione degli stati mentali

I grandi modelli linguistici non hanno una teoria della mente come gli esseri umani, ma stanno migliorando in compiti progettati per tracciarla.

Gli esseri umani sono esseri complessi. I modi in cui comunichiamo sono molteplici e gli psicologi hanno ideato molti tipi di test per misurare la nostra capacità di dedurre il significato e la comprensione dalle interazioni con gli altri.

I modelli di intelligenza artificiale stanno migliorando in questi test. Una nuova ricerca pubblicata oggi su Nature Human Behavior ha scoperto che alcuni modelli linguistici di grandi dimensioni (LLM) hanno prestazioni pari e in alcuni casi superiori a quelle degli esseri umani quando vengono sottoposti a compiti progettati per testare la capacità di tracciare gli stati mentali delle persone, nota come “teoria della mente”.

Questo non significa che i sistemi di intelligenza artificiale siano effettivamente in grado di capire come ci sentiamo. Ma dimostra che questi modelli si comportano sempre meglio in esperimenti progettati per valutare abilità che gli psicologi ritengono uniche per gli esseri umani. Per saperne di più sui processi che stanno alla base dei successi e dei fallimenti dei LLM in questi compiti, i ricercatori hanno voluto applicare lo stesso approccio sistematico che utilizzano per testare la teoria della mente negli esseri umani.

In teoria, più i modelli di IA sono bravi a imitare gli esseri umani, più utili ed empatici possono sembrare nelle loro interazioni con noi. Sia OpenAI che Google hanno annunciato che assistenti AI potenziati, GPT-4o e Astra sono stati progettati per fornire risposte molto più fluide e naturali rispetto ai loro predecessori. Ma dobbiamo evitare di cadere nella trappola di credere che le loro capacità siano simili a quelle umane, anche se lo sembrano.

“Abbiamo una tendenza naturale ad attribuire stati mentali, mente e intenzionalità a entità che non hanno una mente”, afferma Cristina Becchio, docente di neuroscienze presso l’University Medical Center Hamburg-Eppendorf, che ha collaborato alla ricerca. “Il rischio di attribuire una teoria della mente a grandi modelli linguistici c’è”.

La teoria della mente è un segno distintivo dell’intelligenza emotiva e sociale che ci permette di dedurre le intenzioni delle persone e di impegnarci ed entrare in empatia con gli altri. La maggior parte dei bambini acquisisce questo tipo di abilità tra i tre e i cinque anni di età.

I ricercatori hanno testato due famiglie di modelli linguistici di grandi dimensioni, GPT-3.5 e GPT-4 di OpenAI e tre versioni di Llama di Meta, su compiti progettati per testare la teoria della mente negli esseri umani, tra cui l’identificazione di false credenze, il riconoscimento di passi falsi e la comprensione di ciò che viene sottinteso piuttosto che detto direttamente. Hanno inoltre testato 1.907 partecipanti umani per confrontare le serie di punteggi.

Il team ha condotto cinque tipi di test. Il primo, il compito di allusione, è stato progettato per misurare la capacità di una persona di dedurre le reali intenzioni di un’altra attraverso commenti indiretti. Il secondo, il compito di falsa credenza, valuta se una persona è in grado di dedurre che ci si possa ragionevolmente aspettare che qualcun altro creda a qualcosa che si sa non essere vero. Un altro test ha misurato la capacità di riconoscere quando qualcuno sta facendo un passo falso, mentre un quarto test consisteva nel raccontare storie strane, in cui un protagonista fa qualcosa di insolito, per valutare se si è in grado di spiegare il contrasto tra ciò che è stato detto e ciò che era inteso. È stato inoltre incluso un test per verificare se le persone sono in grado di comprendere l’ironia.

I modelli AI sono stati sottoposti a ciascun test 15 volte in chat separate, in modo da trattare ogni richiesta in modo indipendente, e le loro risposte sono state valutate nello stesso modo utilizzato per gli esseri umani. I ricercatori hanno poi testato i volontari umani e i due gruppi di punteggi sono stati confrontati.

Entrambe le versioni di GPT hanno ottenuto risultati pari o talvolta superiori alla media umana nei compiti che prevedevano richieste indirette, depistaggio e false credenze, mentre GPT-4 ha superato gli umani nei test di ironia, allusione e storie strane. I tre modelli di Llama 2 hanno ottenuto risultati inferiori alla media umana.

Tuttavia, Llama 2, il più grande dei tre modelli Meta testati, ha superato gli esseri umani quando si è trattato di riconoscere gli scenari di falsificazione, mentre GPT ha fornito costantemente risposte errate. Gli autori ritengono che ciò sia dovuto alla generale avversione di GPT a generare conclusioni sulle opinioni, perché i modelli hanno risposto in gran parte che non c’erano abbastanza informazioni per rispondere in un modo o nell’altro.

“Questi modelli non dimostrano certo la teoria della mente di un essere umano”, afferma. “Ma quello che dimostriamo è che qui c’è una competenza per arrivare a inferenze mentalistiche e ragionare sulla mente dei personaggi o delle persone”.

Uno dei motivi per cui le LLM hanno ottenuto questi risultati è che questi test psicologici sono così ben consolidati e quindi è probabile che siano stati inclusi nei loro dati di addestramento, spiega Maarten Sap, assistente alla Carnegie Mellon University, che non ha lavorato alla ricerca. “È davvero importante riconoscere che quando si somministra un test di falsa credenza a un bambino, probabilmente non ha mai visto quel test esatto prima, ma i modelli linguistici potrebbero averlo fatto”, spiega.

In definitiva, non abbiamo ancora capito come funzionano i LLM. Ricerche come questa possono aiutarci ad approfondire la comprensione di ciò che questo tipo di modelli può o non può fare, afferma Tomer Ullman, scienziato cognitivo dell’Università di Harvard, che non ha lavorato al progetto. Ma è importante tenere a mente cosa stiamo realmente misurando quando sottoponiamo i LLM a test come questi. Se un’intelligenza artificiale supera un essere umano in un test progettato per misurare la teoria della mente, non significa che l’intelligenza artificiale abbia una teoria della mente”.

Non sono contrario ai benchmark, ma faccio parte di un gruppo di persone che sono preoccupate del fatto che stiamo raggiungendo la fine dell’utilità del modo in cui abbiamo usato i benchmark“, dice Ullman. “Comunque questa cosa abbia imparato a superare il benchmark, non è – non credo – un modo simile a quello umano”.

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

PsiQuantum intende costruire il più grande computer quantistico degli Stati Uniti

L’IA di Google DeepMind può ora risolvere complessi problemi matematici

L’IA addestrata sui rifiuti dell’IA produce rifiuti dell’IA.

Perché le aziende cinesi puntano sull’IA open-source

I modelli di IA possono superare gli umani nei test per l’identificazione degli stati mentali

I grandi modelli linguistici non hanno una teoria della mente come gli esseri umani, ma stanno migliorando in compiti progettati per tracciarla.

Social

I modelli di IA possono superare gli umani nei test per l’identificazione degli stati mentali

I grandi modelli linguistici non hanno una teoria della mente come gli esseri umani, ma stanno migliorando in compiti progettati per tracciarla.

Related Posts