Skip to main content
STEPHANIE ARNETT/MITTR VIA MIDJOUNEY

I grandi modelli linguistici imitano sempre meglio la creatività umana. Ma questo non significa che siano davvero creativi.

L’intelligenza artificiale sta migliorando nel superare i test progettati per misurare la creatività umana. In uno studio pubblicato su Scientific Reports, i chatbot IA hanno ottenuto punteggi medi più alti degli esseri umani nell’Alternate Uses Task, un test comunemente usato per valutare questa capacità.

Questo studio alimenterà il dibattito in corso tra i ricercatori di IA su cosa significhi per un computer superare test concepiti per gli esseri umani. I risultati non indicano necessariamente che le IA stiano sviluppando una capacità di fare qualcosa di unicamente umano. È possibile che le IA riescano a superare i test di creatività, non che siano effettivamente creative nel modo in cui intendiamo noi. Tuttavia, ricerche come questa potrebbero farci capire meglio come gli esseri umani e le macchine si approcciano ai compiti creativi.

I ricercatori hanno iniziato chiedendo a tre chatbot di intelligenza artificiale – ChatGPT e GPT-4 di OpenAI e Copy.Ai, costruito su GPT-3 – di proporre in 30 secondi il maggior numero possibile di usi per una corda, una scatola, una matita e una candela.

I loro suggerimenti istruivano i modelli linguistici di grandi dimensioni a proporre usi originali e creativi per ciascuno degli oggetti, spiegando che la qualità delle idee era più importante della quantità. Ogni chatbot è stato testato 11 volte per ciascuno dei quattro oggetti. I ricercatori hanno dato le stesse istruzioni anche a 256 partecipanti umani.

I ricercatori hanno utilizzato due metodi per valutare le risposte dell’intelligenza artificiale e dell’uomo. Il primo è stato un algoritmo che ha valutato quanto l’uso suggerito fosse vicino allo scopo originale dell’oggetto. Il secondo consisteva nel chiedere a sei valutatori umani (che non erano a conoscenza del fatto che alcune risposte erano state generate da sistemi di intelligenza artificiale) di valutare ogni risposta su una scala da 1 a 5 in termini di creatività e originalità: 1 per niente e 5 per molto. Sono stati poi calcolati i punteggi medi sia per gli esseri umani sia per le IA.

Sebbene le risposte dei chatbot siano state valutate mediamente migliori di quelle degli umani, la quantità di risposte umane con punteggi più alti è stata maggiore.

Sebbene lo scopo dello studio non fosse quello di dimostrare che i sistemi di intelligenza artificiale sono in grado di sostituire gli esseri umani nei ruoli creativi, esso solleva questioni filosofiche sulle caratteristiche uniche degli esseri umani, afferma Simone Grassini, professore associato di psicologia presso l’Università di Bergen, in Norvegia, che ha condotto la ricerca.

“Abbiamo dimostrato che negli ultimi anni la tecnologia ha fatto un grande balzo in avanti quando si parla di imitazione del comportamento umano”, afferma l’esperto. “Questi modelli sono in continua evoluzione”.

Dimostrare che le macchine sono in grado di svolgere bene i compiti progettati per misurare la creatività negli esseri umani non dimostra che siano in grado di avvicinarsi a un pensiero originale, afferma Ryan Burnell, ricercatore senior dell’Alan Turing Institute, che non è stato coinvolto nella ricerca.

I chatbot che sono stati testati sono “scatole nere”, il che significa che non sappiamo esattamente su quali dati sono stati addestrati o come generano le loro risposte. “È molto plausibile che il modello non abbia avuto nuove idee creative, ma abbia semplicemente attinto a ciò che ha visto nei suoi dati di addestramento, che potrebbero includere proprio questo compito di uso alternativo”, spiega. “In questo caso, non stiamo misurando la creatività. Stiamo misurando la conoscenza passata del modello su questo tipo di compito”.

Ciò non significa che non sia ancora utile confrontare il modo in cui le macchine e gli esseri umani affrontano determinati problemi, afferma Anna Ivanova, ricercatrice post-dottorato del MIT che studia i modelli linguistici e che non ha lavorato al progetto. Tuttavia, dobbiamo tenere presente che, sebbene i chatbot siano molto bravi a completare richieste specifiche, possono bastare piccoli accorgimenti come la riformulazione di una richiesta per impedirgli di ottenere lo stesso risultato, afferma l’autrice. La Ivanova ritiene che questo tipo di studi dovrebbe indurci a esaminare il legame tra il compito che chiediamo ai modelli di intelligenza artificiale di portare a termine e la capacità cognitiva che stiamo cercando di misurare. “Non dovremmo dare per scontato che le persone e i modelli risolvano i problemi allo stesso modo”, afferma la studiosa.