
In un test, un’unità di Marines nel Pacifico ha utilizzato l’intelligenza artificiale generativa non solo per raccogliere informazioni, ma anche per interpretarle. Il lavoro di intelligence di routine è solo l’inizio.
Per gran parte dello scorso anno, circa 2.500 membri dei servizi statunitensi della 15a Unità di Spedizione dei Marines hanno navigato a bordo di tre navi nel Pacifico, conducendo esercitazioni nelle acque al largo della Corea del Sud, delle Filippine, dell’India e dell’Indonesia. Contemporaneamente, a bordo delle navi, si stava svolgendo un esperimento: i Marines dell’unità, responsabili della selezione delle informazioni straniere e della segnalazione ai loro superiori di possibili minacce locali, stavano usando per la prima volta l’intelligenza artificiale generativa, testando un importante strumento di IA finanziato dal Pentagono.
Due ufficiali ci raccontano di aver usato il nuovo sistema per setacciare migliaia di fonti di intelligence aperte – articoli non classificati, rapporti, immagini, video – raccolte nei vari Paesi in cui operavano, e di averlo fatto molto più velocemente di quanto fosse possibile con il vecchio metodo di analisi manuale. Il capitano Kristin Enzenauer, per esempio, dice di aver usato modelli linguistici di grandi dimensioni per tradurre e riassumere le fonti di notizie straniere, mentre il capitano Will Lowdon ha usato l’intelligenza artificiale per aiutare a scrivere i rapporti di intelligence giornalieri e settimanali che forniva ai suoi comandanti.
“Dobbiamo ancora convalidare le fonti”, dice Lowdon. Ma i comandanti dell’unità hanno incoraggiato l’uso di modelli linguistici di grandi dimensioni, dice, “perché forniscono molta più efficienza durante una situazione dinamica”.
Gli strumenti di IA generativa utilizzati sono stati costruiti dall’azienda di tecnologia della difesa Vannevar Labs, che a novembre ha ottenuto un contratto di produzione del valore massimo di 99 milioni di dollari dalla Defense Innovation Unit del Pentagono, orientata alle startup, con l’obiettivo di portare la sua tecnologia di intelligence a un maggior numero di unità militari. L’azienda, fondata nel 2019 da veterani della CIA e della comunità dei servizi segreti statunitensi, si unisce a Palantir, Anduril e Scale AI come uno dei principali beneficiari dell’abbraccio dell’esercito statunitense all’intelligenza artificiale, non solo per le tecnologie fisiche come i droni e i veicoli autonomi, ma anche per il software che sta rivoluzionando il modo in cui il Pentagono raccoglie, gestisce e interpreta i dati per la guerra e la sorveglianza.
Sebbene le forze armate statunitensi sviluppino modelli di computer vision e strumenti di IA simili, come quelli utilizzati nel Progetto Maven, dal 2017 – strumenti che possono impegnarsi in conversazioni simili a quelle umane, come quelli costruiti dai laboratori Vannevar – l’uso dell’IA generativa rappresenta una frontiera più recente.
L’azienda applica i modelli linguistici di grandi dimensioni esistenti, tra cui alcuni di OpenAI e Microsoft, e alcuni propri modelli su misura, a una marea di informazioni open source che l’azienda raccoglie dal 2021. La portata della raccolta di questi dati è difficile da comprendere (e costituisce una parte importante di ciò che distingue i prodotti di Vannevar): ogni giorno vengono raccolti terabyte di dati in 80 lingue diverse in 180 Paesi. L’azienda afferma di essere in grado di analizzare i profili dei social media e di violare i firewall in Paesi come la Cina per ottenere informazioni di difficile accesso; utilizza anche dati non classificati difficilmente reperibili online (raccolti da operatori umani sul campo), nonché rapporti provenienti da sensori fisici che monitorano segretamente le onde radio per rilevare attività di spedizione illegali.
Vannevar costruisce quindi modelli di intelligenza artificiale per tradurre le informazioni, rilevare le minacce e analizzare il sentimento politico, con i risultati forniti attraverso un’interfaccia chatbot non dissimile da ChatGPT. L’obiettivo è fornire ai clienti informazioni critiche su argomenti diversi come le catene di approvvigionamento internazionali di fentanyl e gli sforzi della Cina per assicurarsi minerali di terre rare nelle Filippine.
“Il nostro vero obiettivo come azienda”, afferma Scott Philips, chief technology officer dei Vannevar Labs, “è raccogliere dati, dare un senso a quei dati e aiutare gli Stati Uniti a prendere buone decisioni”.
Questo approccio è particolarmente interessante per l’apparato di intelligence degli Stati Uniti, perché da anni il mondo è inondato da una quantità di dati superiore a quella che gli analisti umani possono interpretare – un problema che ha contribuito alla fondazione nel 2003 di Palantir, un’azienda con un valore di mercato di oltre 200 miliardi di dollari e nota per i suoi strumenti potenti e controversi, tra cui un database che aiuta l’Immigration and Customs Enforcement a cercare e tracciare informazioni sugli immigrati irregolari.
Nel 2019, Vannevar vide l’opportunità di utilizzare modelli linguistici di grandi dimensioni, allora nuovi sulla scena, come soluzione innovativa all’enigma dei dati. La tecnologia potrebbe consentire all’IA non solo di raccogliere dati, ma anche di parlare di un’analisi con qualcuno in modo interattivo.
Gli strumenti di Vannevar si sono rivelati utili per il dispiegamento nel Pacifico e Enzenauer e Lowdon affermano che, pur essendo stati istruiti a ricontrollare sempre il lavoro dell’IA, non hanno riscontrato imprecisioni come un problema significativo. Enzenauer ha usato regolarmente lo strumento per tenere traccia di tutte le notizie estere in cui venivano citate le esercitazioni dell’unità e per eseguire l’analisi del sentiment, rilevando le emozioni e le opinioni espresse nel testo. Giudicare se un articolo di notizie straniere riflette un’opinione minacciosa o amichevole nei confronti dell’unità è un compito che nelle precedenti missioni doveva svolgere manualmente.
“Per la maggior parte si è trattato di fare ricerche a mano, tradurre, codificare e analizzare i dati”, spiega l’autrice. “È stato sicuramente molto più dispendioso in termini di tempo rispetto all’utilizzo dell’IA”.
Tuttavia, Enzenauer e Lowdon affermano che ci sono stati degli intoppi, alcuni dei quali riguarderebbero la maggior parte degli strumenti digitali: le navi hanno avuto connessioni internet discontinue per la maggior parte del tempo, limitando la velocità con cui il modello di intelligenza artificiale poteva sintetizzare l’intelligenza straniera, soprattutto se si trattava di foto o video.
Dopo il completamento di questo primo test, l’ufficiale in comando dell’unità, il colonnello Sean Dynan, ha dichiarato in una telefonata con i giornalisti a febbraio che un uso più intenso dell’IA generativa è in arrivo; questo esperimento è “la punta dell’iceberg”.
Questa è infatti la direzione verso la quale l’intero esercito statunitense si sta dirigendo a tutta velocità. A dicembre, il Pentagono ha dichiarato che spenderà 100 milioni di dollari nei prossimi due anni per progetti pilota specifici per applicazioni di IA generativa. Oltre a Vannevar, si sta rivolgendo anche a Microsoft e Palantir, che stanno lavorando insieme su modelli di IA che utilizzerebbero dati classificati. (Naturalmente gli Stati Uniti non sono soli in questo approccio; in particolare, Israele ha utilizzato l’IA per selezionare le informazioni e persino generare liste di obiettivi nella sua guerra a Gaza, una pratica che è stata ampiamente criticata).
Forse non sorprende che molte persone al di fuori del Pentagono stiano mettendo in guardia sui potenziali rischi di questo piano, tra cui Heidy Khlaaf, scienziato capo dell’AI presso l’AI Now Institute, un’organizzazione di ricerca, con esperienza nella conduzione di audit sulla sicurezza dei sistemi alimentati dall’AI. Secondo l’autrice, questa fretta di incorporare l’IA generativa nel processo decisionale militare ignora i difetti fondamentali della tecnologia: “Siamo già consapevoli di come gli LLM siano altamente imprecisi, soprattutto nel contesto di applicazioni critiche per la sicurezza che richiedono precisione”.
Khlaaf aggiunge che anche se gli esseri umani “controllano due volte” il lavoro dell’IA, non c’è motivo di pensare che siano in grado di cogliere ogni errore. “Il termine ‘umano nel loop’ non è sempre un’attenuazione significativa”, afferma Khlaaf. Quando un modello di IA si basa su migliaia di dati per giungere a delle conclusioni, “non sarebbe davvero possibile per un essere umano vagliare quella quantità di informazioni per determinare se il risultato dell’IA è errato”.
Un caso d’uso particolare che la preoccupa è l’analisi del sentiment, che secondo l’autrice è “una metrica altamente soggettiva che persino gli esseri umani farebbero fatica a valutare in modo appropriato sulla base dei soli media”.
Se l’intelligenza artificiale percepisce un’ostilità verso le forze statunitensi che un analista umano non percepirebbe, o se il sistema non coglie un’ostilità che in realtà c’è, l’esercito potrebbe prendere una decisione sbagliata o aggravare inutilmente la situazione.
L’analisi del sentimento è in effetti un compito che l’IA ha non perfezionato . Philips, CTO di Vannevar, afferma che l’azienda ha costruito modelli specifici per giudicare se un articolo è favorevole o meno agli Stati Uniti, ma MIT Technology Review non è stata in grado di valutarli.
Chris Mouton, ingegnere senior di RAND, ha recentemente testato quanto l’intelligenza artificiale generativa sia adatta a questo compito. Ha valutato i principali modelli, tra cui GPT-4 di OpenAI e una versione precedente di GPT perfezionata per svolgere questo lavoro di intelligence, in base all’accuratezza con cui segnalavano i contenuti stranieri come propaganda rispetto agli esperti umani. “È difficile”, dice, notando che l’intelligenza artificiale ha faticato a identificare i tipi più sottili di propaganda. Ma aggiunge che i modelli potrebbero comunque essere utili in molti altri compiti di analisi.
Un altro limite dell’approccio di Vannevar, sostiene Khlaaf, è che l’utilità dell’intelligence open-source è discutibile. Mouton afferma che i dati open-source possono essere “piuttosto straordinari”, ma Khlaaf sottolinea che, a differenza delle informazioni classificate raccolte tramite ricognizione o intercettazioni, sono esposte a Internet, il che le rende molto più suscettibili a campagne di disinformazione, reti di bot e manipolazioni deliberate, come l’Esercito degli Stati Uniti ha avvertito.
Per Mouton, la più grande questione aperta è se queste tecnologie di IA generativa saranno semplicemente uno strumento di indagine tra i tanti che gli analisti utilizzeranno, o se produrranno l’analisi soggettiva su cui si fa affidamento e di cui ci si fida nel processo decisionale. “Questo è il dibattito centrale”, afferma.
Tutti sono d’accordo sul fatto che i modelli di IA sono accessibili: basta porre loro una domanda su elementi complessi di intelligence e risponderanno con un linguaggio semplice. Ma è ancora in discussione quali imperfezioni saranno accettabili in nome dell’efficienza.