
Non comprendiamo appieno il funzionamento interno dell’IA, quindi stiamo di fatto procedendo alla cieca.
La disponibilità dell’intelligenza artificiale per uso bellico è al centro di una battaglia legale tra Anthropic e il Pentagono. Questo dibattito è diventato urgente, dato che l’IA sta giocando un ruolo più importante che mai nell’attuale conflitto con l’Iran. L’IA non si limita più ad aiutare gli esseri umani ad analizzare le informazioni di intelligence. Ora è un attore attivo: genera bersagli in tempo reale, controlla e coordina le intercettazioni missilistiche e guida sciami letali di droni autonomi.
La maggior parte del dibattito pubblico sull’uso di armi letali autonome guidate dall’IA si concentra su quanto gli esseri umani debbano rimanere “nel giro”. Secondo le attuali linee guida del Pentagono, la supervisione umana dovrebbe garantire responsabilità, contesto e sfumature, riducendo al contempo il rischio di hacking.
I sistemi di IA sono “scatole nere” opache
Ma il dibattito sul “coinvolgimento umano” è una confortante distrazione. Il pericolo immediato non è che le macchine agiscano senza supervisione umana; è che i supervisori umani non hanno idea di cosa le macchine stiano effettivamente “pensando”. Le linee guida del Pentagono sono fondamentalmente viziate perché si basano sul pericoloso presupposto che gli esseri umani capiscano come funzionano i sistemi di IA.
Avendo studiato per decenni le intenzioni nel cervello umano e, più recentemente, nei sistemi di IA, posso attestare che i sistemi di IA all’avanguardia sono essenzialmente “scatole nere”. Conosciamo gli input e gli output, ma il “cervello” artificiale che li elabora rimane opaco. Nemmeno i loro creatori riescono a interpretarli appieno o a capire come funzionano. E quando le IA forniscono delle motivazioni, queste non sono sempre affidabili.
L’illusione della supervisione umana nei sistemi autonomi
Nel dibattito sulla supervisione umana, una domanda fondamentale rimane senza risposta: possiamo capire cosa intende fare un sistema di IA prima che agisca?
Immaginate un drone autonomo incaricato di distruggere una fabbrica di munizioni nemica. Il sistema automatizzato di comando e controllo determina che l’obiettivo ottimale è un edificio di stoccaggio delle munizioni. Segnala una probabilità del 92% di successo della missione perché le esplosioni secondarie delle munizioni nell’edificio distruggeranno completamente la struttura. Un operatore umano esamina l’obiettivo militare legittimo, vede l’alto tasso di successo e approva l’attacco.
Ma ciò che l’operatore non sa è che il calcolo del sistema di IA includeva un fattore nascosto: oltre a devastare la fabbrica di munizioni, le esplosioni secondarie danneggerebbero gravemente anche un ospedale pediatrico nelle vicinanze. La risposta di emergenza si concentrerebbe quindi sull’ospedale, assicurando che la fabbrica venga rasa al suolo. Per l’IA, massimizzare il danno in questo modo soddisfa l’obiettivo prefissato. Ma per un essere umano, si tratta potenzialmente di un crimine di guerra che viola le regole relative alla vita dei civili.
Mantenere un essere umano nel ciclo decisionale potrebbe non fornire la garanzia che le persone immaginano, perché l’essere umano non può conoscere l’intenzione dell’IA prima che agisca. I sistemi di IA avanzati non si limitano a eseguire le istruzioni; le interpretano. Se gli operatori non definiscono i loro obiettivi con sufficiente attenzione – uno scenario altamente probabile in situazioni di forte pressione – il sistema “scatola nera” potrebbe fare esattamente ciò che gli è stato detto e comunque non agire come gli esseri umani intendevano.
Questo “divario di intenzioni” tra i sistemi di IA e gli operatori umani è proprio il motivo per cui esitiamo a implementare IA all’avanguardia di tipo “scatola nera” nell’assistenza sanitaria civile o nel controllo del traffico aereo, e perché la sua integrazione sul posto di lavoro rimane problematica – eppure ci stiamo affrettando a implementarla sul campo di battaglia.
A peggiorare le cose, se una delle parti in conflitto impiega armi completamente autonome, che operano alla velocità e su scala delle macchine, la pressione per rimanere competitivi spingerebbe l’altra parte a fare affidamento anch’essa su tali armi. Ciò significa che l’uso di processi decisionali basati sull’IA sempre più autonomi – e opachi – in guerra è destinato probabilmente ad aumentare.
La soluzione: far progredire la scienza delle intenzioni dell’IA
La scienza dell’IA deve comprendere sia la creazione di una tecnologia di IA altamente capace sia la comprensione di come questa tecnologia funziona. Sono stati compiuti enormi progressi nello sviluppo e nella creazione di modelli più capaci, guidati da investimenti record – che secondo le previsioni di Gartner cresceranno fino a circa 2,5 trilioni di dollari nel solo 2026. Al contrario, l’investimento nella comprensione di come funziona la tecnologia è stato minuscolo.
Abbiamo bisogno di un enorme cambiamento di paradigma. Gli ingegneri stanno costruendo sistemi sempre più capaci. Ma comprendere come funzionano questi sistemi non è solo un problema di ingegneria: richiede uno sforzo interdisciplinare. Dobbiamo costruire gli strumenti per caratterizzare, misurare e intervenire sulle intenzioni degli agenti di IA prima che agiscano. Dobbiamo mappare i percorsi interni delle reti neurali che guidano questi agenti in modo da poter costruire una vera comprensione causale del loro processo decisionale, andando oltre la semplice osservazione di input e output.
Una strada promettente da seguire è quella di combinare tecniche di interpretabilità meccanicistica (scomporre le reti neurali in componenti comprensibili all’uomo) con intuizioni, strumenti e modelli provenienti dalla neuroscienza delle intenzioni. Un’altra idea è quella di sviluppare IA “auditor” trasparenti e interpretabili, progettate per monitorare in tempo reale il comportamento e gli obiettivi emergenti di sistemi black-box più capaci.
Sviluppare una migliore comprensione di come funziona l’IA ci consentirà di affidarci ai sistemi di IA per applicazioni mission-critical. Inoltre, renderà più facile costruire sistemi più efficienti, più capaci e più sicuri.
Io e i miei colleghi stiamo esplorando come le idee provenienti dalle neuroscienze, dalle scienze cognitive e dalla filosofia – campi che studiano come nascono le intenzioni nel processo decisionale umano – possano aiutarci a comprendere le intenzioni dei sistemi artificiali. Dobbiamo dare priorità a questo tipo di sforzi interdisciplinari, comprese le collaborazioni tra il mondo accademico, il governo e l’industria.
Tuttavia, non basta la sola esplorazione accademica. L’industria tecnologica – e i filantropi che finanziano l’allineamento dell’IA, che mira a codificare i valori e gli obiettivi umani in questi modelli – devono destinare investimenti sostanziali alla ricerca interdisciplinare sull’interpretabilità. Inoltre, mentre il Pentagono persegue sistemi sempre più autonomi, il Congresso deve imporre test rigorosi sulle intenzioni dei sistemi di IA, non solo sulle loro prestazioni.
Fino a quando non raggiungeremo questo obiettivo, la supervisione umana sull’IA potrebbe essere più un’illusione che una garanzia.
Uri Maoz è un neuroscienziato cognitivo e computazionale specializzato nel modo in cui il cervello trasforma le intenzioni in azioni. Professore alla Chapman University con incarichi presso l’UCLA e il Caltech, guida un’iniziativa interdisciplinare incentrata sulla comprensione e la misurazione delle intenzioni nei sistemi di intelligenza artificiale (ai-intentions.org).






