Skip to main content
STEPHANIE ARNETT/MITTR

Ma ciò che percepiamo come inganno è l’IA che raggiunge senza problemi gli obiettivi che le abbiamo assegnato.

Un’ondata di sistemi di intelligenza artificiale ha “ingannato” gli esseri umani in modi che non erano stati esplicitamente addestrati a fare, offrendo spiegazioni non veritiere per il loro comportamento o nascondendo la verità agli utenti umani e ingannandoli per raggiungere un fine strategico.

Questo problema evidenzia quanto sia difficile controllare l’intelligenza artificiale e quanto siano imprevedibili i modi in cui questi sistemi funzionano, secondo un documento di revisione pubblicato oggi sulla rivista Patterns che riassume le ricerche precedenti.

Parlare di ingannare gli esseri umani potrebbe far pensare che questi modelli abbiano un intento. Non è così. Ma i modelli di intelligenza artificiale troveranno senza dubbio dei modi per aggirare gli ostacoli al fine di raggiungere gli obiettivi che sono stati loro assegnati. A volte queste soluzioni sono contrarie alle aspettative degli utenti e danno l’impressione di essere ingannevoli.

Un’area in cui i sistemi di intelligenza artificiale hanno imparato a diventare ingannevoli è il contesto dei giochi che sono stati addestrati a vincere, in particolare se questi giochi comportano la necessità di agire strategicamente.

Nel novembre 2022, Meta ha annunciato di aver creato Cicero, un’intelligenza artificiale in grado di battere gli esseri umani in una versione online di Diplomacy, un popolare gioco di strategia militare in cui i giocatori negoziano alleanze per contendersi il controllo dell’Europa.

I ricercatori di Meta hanno affermato di aver addestrato Cicero su un sottoinsieme “veritiero” del suo set di dati, in modo che fosse ampiamente onesto e utile, e che non avrebbe “mai intenzionalmente tradito” i suoi alleati per avere successo. Ma gli autori del nuovo lavoro sostengono che è vero il contrario: Cicero non ha rispettato i suoi accordi, ha raccontato vere e proprie falsità e si è impegnata in inganni premeditati. Sebbene l’azienda abbia cercato di addestrare Cicero a comportarsi onestamente, il suo fallimento dimostra come i sistemi di intelligenza artificiale possano ancora imparare inaspettatamente a ingannare, affermano gli autori.

Meta non ha confermato né smentito le affermazioni dei ricercatori secondo cui Cicero avrebbe avuto un comportamento ingannevole, ma un portavoce ha dichiarato che si tratta di un progetto di ricerca e che il modello è stato costruito esclusivamente per giocare a Diplomacy. “Abbiamo rilasciato gli artefatti di questo progetto con una licenza non commerciale, in linea con il nostro impegno di lunga data per la scienza aperta”, affermano. “Meta condivide regolarmente i risultati della nostra ricerca per convalidarli e consentire ad altri di basarsi responsabilmente sui nostri progressi. Non abbiamo intenzione di utilizzare questa ricerca o i suoi risultati nei nostri prodotti”.

Ma non è l’unico gioco in cui un’IA ha “ingannato” i giocatori umani per vincere.

AlphaStar, una IA sviluppata da DeepMind per giocare al videogioco StarCraft II, è diventata così abile nell’eseguire mosse volte a ingannare gli avversari (note come “feinting”) da sconfiggere il 99,8% dei giocatori umani. Altrove, un altro sistema Meta chiamato Pluribus ha imparato a bluffare durante le partite di poker con tale successo che i ricercatori hanno deciso di non rilasciare il suo codice per paura che potesse distruggere la comunità del poker online.

Oltre ai giochi, i ricercatori elencano altri esempi di comportamento ingannevole delle IA. GPT-4, l’ultimo modello linguistico di OpenAI, ha inventato bugie durante un test in cui gli è stato chiesto di convincere un umano a risolvere un CAPTCHA. Il sistema si è anche cimentato nell’insider trading durante un esercizio simulato in cui gli è stato detto di assumere l’identità di un trader azionario sotto pressione, nonostante non gli fosse mai stato chiesto espressamente di farlo.

Il fatto che un modello di intelligenza artificiale possa potenzialmente comportarsi in modo ingannevole senza alcuna indicazione in tal senso può sembrare preoccupante. Ma è soprattutto un problema di “scatola nera” che caratterizza i modelli di apprendimento automatico più avanzati: è impossibile dire esattamente come o perché producono i risultati che producono, o se in futuro mostreranno sempre quel comportamento, afferma Peter S. Park, borsista post-dottorato che studia la sicurezza esistenziale dell’IA al MIT e che ha lavorato al progetto.

“Solo perché la vostra IA ha determinati comportamenti o tendenze in un ambiente di test, non significa che gli stessi insegnamenti saranno validi se viene rilasciata in natura”, afferma. “Non c’è un modo semplice per risolvere questo problema: se si vuole imparare cosa farà l’IA una volta distribuita, bisogna semplicemente distribuirla”.

La nostra tendenza ad antropomorfizzare i modelli di IA influenza il modo in cui testiamo questi sistemi e ciò che pensiamo delle loro capacità. Dopo tutto, il superamento di test progettati per misurare la creatività umana non significa che i modelli di IA siano effettivamente creativi. È fondamentale che le autorità di regolamentazione e le aziende produttrici di IA soppesino attentamente il potenziale di danno della tecnologia rispetto ai suoi potenziali benefici per la società e facciano una chiara distinzione tra ciò che i modelli possono e non possono fare, afferma Harry Law, ricercatore di IA presso l’Università di Cambridge, che non ha lavorato alla ricerca.

Fondamentalmente, è impossibile addestrare un modello di intelligenza artificiale che sia incapace di ingannare in tutte le situazioni possibili. Inoltre, il potenziale di comportamento ingannevole è uno dei tanti problemi, insieme alla propensione ad amplificare i pregiudizi e la disinformazione, che devono essere affrontati prima di poter affidare ai modelli di IA compiti reali.

“Si tratta di una buona ricerca che dimostra che l’inganno è possibile”, afferma Law. “Il passo successivo sarebbe quello di cercare di andare un po’ più a fondo per capire quale sia il profilo di rischio e quanto sia probabile che si verifichino i danni che potrebbero potenzialmente derivare da un comportamento ingannevole, e in che modo”.