Gli studi sull’AI mancano di trasparenza

I giganti della tecnologia dominano la ricerca, ma il loro modo di agire ha reso confuso il confine tra la vera innovazione e la promozione pubblicitaria di un prodotto. 

di Will Douglas Heaven

Il mese scorso “Nature” ha pubblicato una dura risposta scritta da 31 scienziati a uno studio di Google Health apparso sulla rivista all’inizio di quest’anno. Google stava descrivendo i risultati positivi di un’IA che cercava l’eventuale presenza di un tumore al seno nelle immagini mediche. Ma secondo i suoi critici, il team di Google ha fornito così poche informazioni sul suo codice e su come è stato testato che lo studio non è stato altro che una promozione della tecnologia proprietaria.

“Eravamo esausti”, dice Benjamin Haibe-Kains, l’autore principale della risposta, che studia genomica computazionale all’Università di Toronto. “Non si tratta di questo studio in particolare, ma di una tendenza a cui assistiamo da diversi anni ormai che ha iniziato a infastidirci”. Haibe-Kains e i suoi colleghi fanno parte di un numero crescente di scienziati che si oppongono a quella che definiscono una mancanza di trasparenza nella ricerca sull’IA. 

“Quando abbiamo visto quel documento di Google, ci siamo resi conto che era l’ennesimo esempio di una rivista di altissimo profilo che pubblicava uno studio indubbiamente interessante, ma che non ha nulla a che fare con la scienza e che rappresenta poco più di una pubblicità per una tecnologia cool”, egli dice. 

La scienza è costruita su un fondamento di fiducia, che in genere implica la condivisione di dettagli sufficienti su come viene svolta la ricerca per consentire agli altri di replicarla, verificando i risultati da soli. È così che la scienza si auto-corregge ed elimina i risultati non affidabili. La replicabilità consente anche ad altri di costruire su quei risultati, aiutando a far progredire il campo. La scienza che non può essere replicata cade nel dimenticatoio.

Almeno, questa è l’idea. In pratica, pochi studi sono completamente replicabili perché la maggior parte dei ricercatori è più interessata a produrre nuovi risultati che a riprodurre quelli vecchi. Ma in campi come la biologia e la fisica – e l’informatica in generale – i ricercatori sono generalmente tenuti a fornire le informazioni necessarie per rieseguire gli esperimenti, anche se la replicabilità è rara.

Qualcuno gioca sporco

L’intelligenza artificiale è al centro di questo problema. Per cominciare, è una nuova arrivata. È diventata davvero una scienza sperimentale solo negli ultimi dieci anni, afferma Joelle Pineau, scienziata informatica di Facebook AI Research e della McGill University, coautrice del documento. Il problema non è semplicemente accademico. Una mancanza di trasparenza impedisce che i nuovi modelli e tecniche di AI vengano adeguatamente valutati in termini di validità, pregiudizi e sicurezza. 

L’intelligenza artificiale passa rapidamente dai laboratori di ricerca alle applicazioni del mondo reale, con un impatto diretto sulla vita delle persone. Ma i modelli di apprendimento automatico che funzionano bene in laboratorio possono fallire in natura, con conseguenze potenzialmente pericolose. La possibilità di replicare gli studi da parte di più ricercatori in contesti diversi renderebbe l’AI meno esposta alle critiche. 

L’intelligenza artificiale soffre già del problema della scatola nera: può essere impossibile dire esattamente come o perché un modello di apprendimento automatico produce i risultati che produce. La mancanza di trasparenza nella ricerca peggiora le cose. I modelli di grandi dimensioni hanno bisogno di più occhi possibili, di persone che li testano e capiscono cosa li fa funzionare. Questo è il modo in cui rendiamo l’AI nell’assistenza sanitaria più sicura, l’AI nella polizia più equa e i chatbot meno odiosi.

Ciò che impedisce alla replicabilità dell’AI è la mancanza di accesso a tre cose: codice, dati e hardware. Secondo il rapporto sullo stato dell’AI del 2020, un’analisi annuale puntuale del settore dagli investitori condotta da Nathan Benaich e Ian Hogarth, solo il 15 per cento degli studi sull’intelligenza artificiale condivide il proprio codice. I ricercatori del settore agiscono in questo modo molto più di quelli legati alle università. In particolare, il rapporto accusa OpenAI e Deep Mind di mantenere il codice nascosto.

Poi c’è il divario crescente tra chi ha e chi non ha quando si tratta dei due pilastri dell’intelligenza artificiale, dati e hardware. I dati sono spesso proprietari, come le informazioni che Facebook raccoglie sui propri utenti, o sensibili, come nel caso delle cartelle cliniche personali. E i giganti della tecnologia conducono sempre più ricerche su enormi e costosi cluster di computer a cui poche università o aziende più piccole hanno le risorse per accedere.

Per fare un esempio, si stima che l’addestramento del generatore di linguaggio GPT-3 sia costato a OpenAI da 10 a 12 milioni di dollari, e si tratta solo del modello finale, escluso il costo di sviluppo e training dei suoi prototipi- “Probabilmente si potrebbe moltiplicare questa cifra per almeno uno o due ordini di grandezza”, afferma Benaich, fondatore di Air Street Capital, una società di VC che investe in startup AI.  “Nessun altro può semplicemente investire enormi budget in questi esperimenti”, egli sostiene. (Si veda tweet)

Il tasso di progresso è vertiginoso, con migliaia di articoli pubblicati ogni anno. Ma a meno che i ricercatori non sappiano di quali fidarsi, è difficile per il settore fare progressi reali. La replicabilità consente ad altri ricercatori di verificare che i risultati siano stati selezionati con cura e che le nuove tecniche di AI funzionino davvero come descritto. “Sta diventando sempre più difficile stabilire quali sono risultati affidabili e quali no”, afferma Pineau.

Cosa si può fare? Come molti ricercatori di intelligenza artificiale, Pineau divide il suo tempo tra università e laboratori aziendali. Negli ultimi anni la scienziata informatica è stata la forza trainante di un cambiamento nel modo in cui viene pubblicata la ricerca sull’AI. Per esempio, l’anno scorso ha contribuito a introdurre una lista di cose che i ricercatori devono fornire, incluso il codice e descrizioni dettagliate degli esperimenti, quando inviano documenti a NeurIPS, una delle più grandi conferenze sull’AI.

La replicabilità è un premio in quanto tale

Pineau ha contribuito a lanciare una serie di sfide sulla riproducibilità, in cui i ricercatori cercano di replicare i risultati degli studi pubblicati. I partecipanti selezionano i documenti che sono stati accettati a una conferenza e competono per ripetere gli esperimenti utilizzando le informazioni fornite. Ma l’unico premio sono i complimenti.

La replicabilità è essenziale, ma non viene premiata. Una soluzione è convincere gli studenti a fare il lavoro. Negli ultimi due anni, Rosemary Ke, studentessa di dottorato presso Mila, un istituto di ricerca a Montreal fondato da Yoshua Bengio, ha organizzato una sfida di replicabilità in cui gli studenti cercano di replicare gli studi presentati a NeurIPS come parte del loro corso di apprendimento automatico. A loro volta, alcune repliche di successo sono sottoposte a revisione paritaria e pubblicate sulla rivista “ReScience”.

“Ci vuole un grande impegno per riprodurre un altro studio da zero”, dice Ke. “La sfida della replicabilità riconosce questo sforzo e premia le persone che fanno un buon lavoro.” Ke e altri stanno anche diffondendo la parola alle conferenze sull’intelligenza artificiale attraverso workshop istituiti per incoraggiare i ricercatori a rendere il loro lavoro più trasparente. Quest’anno Pineau e Ke hanno esteso la sfida della riproducibilità a sette delle principali conferenze sull’intelligenza artificiale, tra cui ICML e ICLR. 

Un’altra spinta alla trasparenza è il progetto Papers with Code, avviato dal ricercatore di intelligenza artificiale Robert Stojnic quando era all’Università di Cambridge (Stojnic è ora un collega di Pineau a Facebook). Lanciato come sito web autonomo sul quale i ricercatori potevano collegare uno studio al codice che lo accompagnava, quest’anno Papers with Code ha avviato una collaborazione con arXiv, un popolare server di articolo in fase di prestampa. 

Da ottobre, tutti i documenti di apprendimento automatico su arXiv sono stati accompagnati da una sezione Documenti con codice che si collega direttamente al codice che gli autori desiderano rendere disponibile. L’obiettivo è fare della condivisione la norma.

Queste iniziative ottengono risultati? Pineau ha scoperto che l’anno scorso, quando è stata introdotta la lista di controllo, il numero di ricercatori, incluso il codice con articoli presentati a NeurIPS, è passato da meno del 50 a circa il 75 per cento. Migliaia di revisori affermano di aver utilizzato il codice per valutare i contributi. E il numero di partecipanti alle sfide sulla replicabilità è in aumento.

L’importanza dei dettagli

Ma è solo l’inizio. Haibe-Kains sottolinea che il codice da solo spesso non è sufficiente per rieseguire un esperimento. La creazione di modelli di intelligenza artificiale comporta molte piccole modifiche: l’aggiunta di parametri da una parte, la regolazione dei valori dall’altra. Ognuno di questi può fare la differenza tra un modello funzionante e non funzionante. Senza metadati che descrivono come i modelli vengono addestrati e sintonizzati, il codice può essere inutile. “Il diavolo è davvero nei dettagli”, egli dice.

Inoltre, non è sempre chiaro esattamente quale codice condividere in primo luogo. Molti laboratori utilizzano software speciali per eseguire i propri modelli, a volte di tipo proprietario. È difficile sapere anche quanto di questo codice di supporto deve essere condiviso, afferma Haibe-Kains.

Pineau non è eccessivamente preoccupata per questi ostacoli. “Dovremmo avere aspettative davvero elevate per la condivisione del codice”, ella afferma. La condivisione dei dati è più complicata, ma anche qui ci sono soluzioni. Se i ricercatori non possono condividere i propri dati, potrebbero dare indicazioni in modo che altri possano creare set di dati simili. Oppure si potrebbe definire un meccanismo in cui un piccolo numero di revisori indipendenti ha accesso ai dati, verificando i risultati per tutti gli altri, afferma Haibe-Kains.

L’hardware è il problema più grande. Ma DeepMind afferma che la ricerca con grandi investimenti come AlphaGo o GPT-3 ha un effetto a cascata, in cui i soldi spesi dai laboratori ricchi alla fine portano a risultati vantaggiosi per tutti. L’AI che è inaccessibile ad altri ricercatori nelle sue fasi iniziali perché richiede molta potenza di calcolo, è spesso resa più efficiente – e quindi più accessibile – man mano che viene sviluppata. “AlphaGo Zero ha superato l’AlphaGo originale utilizzando molte meno risorse di calcolo”, afferma Koray Kavukcuoglu, vicepresidente della ricerca presso DeepMind.

In teoria, ciò significa che anche se la replicabilità è limitata, rimane ancora possibile. Kavukcuoglu osserva che Gian-Carlo Pascutto, un programmatore belga di Mozilla che scrive software di scacchi e Go nel tempo libero, è stato in grado di ricreare una versione di AlphaGo Zero chiamata Leela Zero, utilizzando algoritmi disegnati da DeepMind nei suoi studi. Pineau pensa anche che la ricerca di punta come AlphaGo e GPT-3 sia rara. La maggior parte della ricerca sull’intelligenza artificiale viene eseguita su computer disponibili a un laboratorio di medie dimensioni, ella afferma. 

Il problema non riguarda solo l’AI. Pineau e Benaich fanno riferimento entrambi alla fisica delle particelle, in cui alcuni esperimenti possono essere condotti solo su apparecchiature costose come il Large Hadron Collider.In fisica, tuttavia, i laboratori universitari conducono esperimenti congiunti sull’LHC. I grandi esperimenti di intelligenza artificiale vengono in genere eseguiti su hardware di proprietà e controllato da aziende. 

Ma il panorama sta cambiando, dice Pineau. Per esempio, un gruppo chiamato Compute Canada sta mettendo insieme cluster di computer per consentire alle università di eseguire grandi esperimenti di AI. Alcune aziende, tra cui Facebook, danno anche alle università un accesso limitato al proprio hardware. “Siamo ancora in una fase iniziale, ma alcune porte si stanno aprendo”, ella afferma. (Si veda tweet, a lato)

Haibe-Kains è meno convinto. Quando ha chiesto al team di Google Health di condividere il codice della sua AI per lo screening del cancro, gli è stato detto che erano necessari ulteriori test. Il team ribadisce questa posizione in una risposta formale alle critiche di Haibe-Kains, pubblicata anche su “Nature”: “Intendiamo sottoporre il nostro software a test approfonditi prima del suo utilizzo in un ambiente clinico, lavorando a fianco di pazienti, fornitori ed enti regolatori per garantire l’efficacia e la sicurezza”.  I ricercatori hanno anche affermato di non avere il permesso di condividere tutti i dati medici che stavano utilizzando.

“Se vogliono creare un prodotto, allora capisco perfettamente che non divulgheranno tutte le informazioni, ma se si pubblicano articoli su una rivista scientifica o per una conferenza, si ha il dovere di rilasciare codici che altri possono eseguire”, spiega Haibe-Kains. A volte ciò potrebbe significare la condivisione di una versione addestrata su meno dati o che utilizza hardware meno costoso. I risultati potrebbero essere meno validi, ma le persone saranno in grado di lavorarci sopra. “I confini tra la realizzazione di un prodotto e la ricerca sono sempre più confusi”, afferma Haibe-Kains. 

Le abitudini della ricerca sono dure a morire

Se le aziende vengono criticate per le loro pubblicazioni, allora perché lo fanno? C’è un certo grado di pubbliche relazioni da mantenere, ovviamente. Ma il motivo principale è che i migliori laboratori aziendali sono pieni di ricercatori universitari. In una certa misura la cultura in luoghi come Facebook AI Research, DeepMind e OpenAI è modellata dalle abitudini accademiche tradizionali. Le aziende tecnologiche sono all’avanguardia anche grazie alla collaborazione con la più ampia comunità di ricerca. 

Tutti i grandi progetti di AI nei laboratori privati sono costruiti su una base di ricerca pubblica. E pochi ricercatori di AI non hanno fatto uso di strumenti di apprendimento automatico open source come PyTorch di Facebook o TensorFlow di Google. Man mano che vengono svolte più ricerche all’interno dei giganti tecnologici, alcuni compromessi tra le esigenze concorrenti del business e della ricerca diventeranno inevitabili. La domanda è come si pongono i ricercatori rispetto a questa situazione. Haibe-Kains vorrebbe vedere riviste come “Nature” dividere ciò che pubblicano in flussi separati: studi riproducibili da un lato e vetrine tecnologiche dall’altro.

Ma Pineau è più ottimista. “Non lavorerei per Facebook se non avesse un approccio aperto alla ricerca”, ella spiega. Anche altri grandi laboratori aziendali sottolineano il loro impegno per la trasparenza. “Il lavoro scientifico richiede controllo e replicabilità da parte di altri studiosi del settore”, afferma Kavukcuoglu. “Questa è una parte fondamentale del nostro approccio alla ricerca in DeepMind”.

“OpenAI è diventata qualcosa di molto diverso da un laboratorio tradizionale”, afferma Kayla Wood, portavoce dell’azienda. “Naturalmente questo solleva alcune domande”. E’ da notare che OpenAI lavora con più di 80 organizzazioni industriali e accademiche nella Partenrship on AI per definire le norme di pubblicazione a lungo termine per la ricerca.

Pineau pensa che le aziende di intelligenza artificiale stiano dimostrando un terzo modo di fare ricerca, da qualche parte tra le due tendenze rimarcate da Haibe-Kains. Per esempio, si mette a confronto la produzione intellettuale dei laboratori privati di intelligenza artificiale con quella delle aziende farmaceutiche, che investono miliardi in farmaci e tengono gran parte del lavoro a porte chiuse.

Resta da vedere l’impatto a lungo termine delle pratiche introdotte da Pineau e altri. Le abitudini verranno cambiate per sempre? Che differenza farà per la diffusione dell’AI al di fuori della ricerca? Molto dipende dalla direzione che prende il campo dell’intelligenza artificiale. La tendenza a modelli e set di dati sempre più grandi, favorita da OpenAI, per esempio, continuerà a rendere la punta di diamante dell’AI inaccessibile alla maggior parte dei ricercatori. D’altra parte, nuove tecniche, come la compressione del modello e l’apprendimento basato su pochi dati, potrebbero invertire questa tendenza e consentire a più ricercatori di lavorare con un’AI più piccola ed efficiente.

In ogni caso, la ricerca sull’AI sarà ancora dominata dalle grandi aziende, il che non è necessariamente un dato negativo, afferma Pineau: “L’intelligenza artificiale sta cambiando la prospettiva su come operano i laboratori di ricerca del settore”. La chiave sarà assicurarsi la maggiore partecipazione possibile, ricordandosi comunque che l’affidabilità dell’IA è legata strettamente agli studi d’avanguardia. 

(rp)

Related Posts
Total
0
Share