Stephanie Arnett/MIT Technology Review | Envato

Finalmente abbiamo una definizione di AI open-source

I ricercatori sono da tempo in disaccordo su cosa si intenda per IA open-source. Un gruppo influente ha offerto una risposta.

di Rhiannon Williams e James O’Donnell

L’intelligenza artificiale open-source è ovunque in questo momento. Il problema è che nessuno è d’accordo su cosa sia effettivamente. Ora potremmo finalmente avere una risposta. L’Open Source Initiative (OSI), che si autoproclama arbitro di ciò che significa essere open source, ha pubblicato una nuova definizione che spera possa aiutare i legislatori a sviluppare normative per proteggere i consumatori dai rischi dell’IA.

Sebbene l’OSI abbia pubblicato molto su ciò che costituisce la tecnologia open-source in altri campi, questo segna il suo primo tentativo di definire il termine per i modelli di IA. L’OSI ha chiesto a un gruppo di 70 persone composto da ricercatori, avvocati, politici e attivisti, nonché da rappresentanti di grandi aziende tecnologiche come Meta, Google e Amazon, di elaborare una definizione operativa.

Secondo il gruppo, un sistema di intelligenza artificiale open-source può essere utilizzato per qualsiasi scopo senza bisogno di ottenere un’autorizzazione e i ricercatori dovrebbero essere in grado di ispezionare i suoi componenti e studiare il funzionamento del sistema.

Dovrebbe anche essere possibile modificare il sistema per qualsiasi scopo, anche per cambiare il suo output, e condividerlo con altri per utilizzarlo, con o senza modifiche, per qualsiasi scopo. Inoltre, lo standard cerca di definire un livello di trasparenza per i dati di addestramento, il codice sorgente e i pesi di un determinato modello.

La precedente mancanza di uno standard open-source ha rappresentato un problema. Anche se sappiamo che la decisione di OpenAI e Anthropic di mantenere segreti i propri modelli, set di dati e algoritmi rende la loro IA closed source, alcuni esperti sostengono che anche i modelli liberamente accessibili di Meta e Google, che possono essere ispezionati e adattati da chiunque, non sono veramente open source, a causa delle licenze che limitano ciò che gli utenti possono fare con i modelli e perché i set di dati di addestramento non sono resi pubblici. Meta, Google e OpenAI sono stati contattati per una risposta alla nuova definizione, ma non hanno risposto prima della pubblicazione.

“È noto che le aziende fanno un uso improprio del termine quando commercializzano i loro modelli”, afferma Avijit Ghosh, ricercatore di politica applicata presso Hugging Face, una piattaforma per la costruzione e la condivisione di modelli di intelligenza artificiale. Descrivere i modelli come open source può farli percepire come più affidabili, anche se i ricercatori non sono in grado di verificare in modo indipendente se lo sono davvero.

Ayah Bdeir, consulente senior di Mozilla e partecipante al processo dell’OSI, afferma che alcune parti della definizione open-source sono state relativamente facili da concordare, tra cui la necessità di rivelare i pesi del modello (i parametri che contribuiscono a determinare il modo in cui un modello di intelligenza artificiale genera un risultato). Altre parti delle deliberazioni sono state più controverse, in particolare la questione della pubblicità dei dati di addestramento.

La mancanza di trasparenza sulla provenienza dei dati di addestramento ha portato a innumerevoli cause contro le grandi aziende di IA, dai produttori di grandi modelli linguistici come OpenAI ai generatori di musica come Suno, che non rivelano molto sui loro set di addestramento oltre a dire che contengono “informazioni accessibili al pubblico”. In risposta, alcuni sostenitori affermano che i modelli open-source dovrebbero rivelare tutti i loro set di addestramento, uno standard che secondo Bdeir sarebbe difficile da applicare a causa di questioni come il copyright e la proprietà dei dati.

In definitiva, la nuova definizione richiede che i modelli open-source forniscano informazioni sui dati di addestramento nella misura in cui “una persona esperta può ricreare un sistema sostanzialmente equivalente utilizzando gli stessi dati o dati simili”. Non si tratta di un requisito generale per la condivisione di tutti i set di dati di addestramento, ma va anche oltre quello che molti modelli proprietari o anche apparentemente open-source fanno oggi. È un compromesso.

“Insistere su un tipo di gold standard ideologicamente incontaminato che in realtà non sarà soddisfatto da nessuno finisce per ritorcersi contro”, afferma Bdeir. Aggiunge, inoltre, che l’OSI sta progettando una sorta di meccanismo di applicazione che segnalerà i modelli descritti come open source ma che non soddisfano la sua definizione. È inoltre previsto il rilascio di un elenco di modelli di intelligenza artificiale che soddisfano la nuova definizione. Anche se nessuno è stato confermato, la manciata di modelli che Bdeir ha dichiarato a MIT Technology Review e che dovrebbero essere inseriti nell’elenco sono nomi relativamente piccoli, tra cui Pythia di Eleuther, OLMo di Ai2 e i modelli del collettivo open source LLM360.

Related Posts
Total
0
Share