Nuovi risultati mostrano come le fonti di dati stiano concentrando il potere nelle mani delle aziende tecnologiche più potenti.
L’intelligenza artificiale è tutta una questione di dati. Per addestrare gli algoritmi a fare ciò che vogliamo, sono necessarie tonnellate di dati e ciò che entra nei modelli di IA determina ciò che ne esce. Ma il problema è che gli sviluppatori e i ricercatori di IA non sanno molto sulle fonti dei dati che utilizzano. Le pratiche di raccolta dei dati dell’IA sono immature rispetto alla sofisticazione dello sviluppo dei modelli di IA. Gli insiemi di dati massicci spesso non hanno informazioni chiare su ciò che contengono e sulla loro provenienza.
La Data Provenance Initiative, un gruppo di oltre 50 ricercatori del mondo accademico e industriale, voleva risolvere questo problema. Volevano sapere, molto semplicemente: da dove provengono i dati per costruire l’intelligenza artificiale? Hanno controllato quasi 4.000 set di dati pubblici che coprono oltre 600 lingue, 67 Paesi e tre decenni. I dati provenivano da 800 fonti uniche e da quasi 700 organizzazioni.
I loro risultati, condivisi in esclusiva con MIT Technology Review, mostrano una tendenza preoccupante: le pratiche relative ai dati dell’IA rischiano di concentrare il potere in modo schiacciante nelle mani di poche aziende tecnologiche dominanti.
All’inizio degli anni 2010, i set di dati provenivano da diverse fonti, spiega Shayne Longpre, ricercatore del MIT che fa parte del progetto.
I dati non provenivano solo da enciclopedie e dal web, ma anche da fonti come trascrizioni parlamentari, telefonate e bollettini meteo. All’epoca, i set di dati dell’intelligenza artificiale erano curati e raccolti da fonti diverse per soddisfare i singoli compiti, spiega Longpre.
Poi nel 2017 sono stati inventati i trasformatori, l’architettura alla base dei modelli linguistici, e il settore dell’IA ha iniziato a vedere le prestazioni migliorare quanto più grandi erano i modelli e i set di dati. Oggi, la maggior parte degli insiemi di dati di IA sono costruiti raccogliendo indiscriminatamente materiale da Internet. Dal 2018, il web è la fonte dominante per i set di dati utilizzati in tutti i media, come audio, immagini e video, ed è emerso e si è ampliato il divario tra i dati scraped e i set di dati più curati.
“Nello sviluppo di modelli di fondazione, nulla sembra avere più importanza per le capacità della scala e dell’eterogeneità dei dati e della rete”, afferma Longpre. L’esigenza di scala ha anche incrementato in modo massiccio l’uso di dati sintetici.
Negli ultimi anni si è assistito anche all’ascesa di modelli di IA generativa multimodale, in grado di generare video e immagini. Come i modelli linguistici di grandi dimensioni, hanno bisogno di quanti più dati possibili e la fonte migliore è diventata YouTube.
Per i modelli video, come si può vedere in questo grafico, oltre il 70% dei dati per i set di dati vocali e di immagini proviene da un’unica fonte.
Questo potrebbe essere un vantaggio per Alphabet, la società madre di Google, che possiede YouTube. Mentre il testo è distribuito sul web e controllato da molti siti e piattaforme diverse, i dati video sono estremamente concentrati in un’unica piattaforma.
“Questo dà un’enorme concentrazione di potere su molti dei dati più importanti del web a un’unica azienda”, afferma Longpre.
E poiché Google sta anche sviluppando i propri modelli di IA, il suo enorme vantaggio solleva anche domande su come l’azienda renderà questi dati disponibili per i concorrenti, afferma Sarah Myers West, direttore co-esecutivo dell’AI Now Institute.
“È importante pensare ai dati non come a una sorta di risorsa naturale, ma come a qualcosa che viene creato attraverso processi particolari”, afferma Myers West.
“Se gli insiemi di dati su cui si basa la maggior parte delle IA con cui interagiamo riflettono le intenzioni e la progettazione di grandi aziende motivate dal profitto, ciò significa rimodellare le infrastrutture del nostro mondo in modi che riflettono gli interessi di quelle grandi aziende”, afferma l’autrice.
Questa monocultura solleva anche domande sull’accuratezza con cui l’esperienza umana viene rappresentata nell’insieme dei dati e sui tipi di modelli che stiamo costruendo, afferma Sara Hooker, vicepresidente della ricerca presso la società tecnologica Cohere, che fa anche parte della Data Provenance Initiative.
Le persone caricano i video su YouTube pensando a un pubblico particolare e il modo in cui le persone agiscono in quei video è spesso finalizzato a un effetto molto specifico. “I dati catturano tutte le sfumature dell’umanità e tutti i modi in cui esistiamo?”, afferma Hooker.
Restrizioni nascoste
Le aziende di IA di solito non condividono i dati utilizzati per addestrare i loro modelli. Uno dei motivi è che vogliono proteggere il loro vantaggio competitivo. L’altro è che, a causa del modo complicato e opaco in cui i set di dati vengono raggruppati, impacchettati e distribuiti, è probabile che non sappiano nemmeno da dove provengano tutti i dati.
Inoltre, probabilmente non dispongono di informazioni complete su eventuali vincoli relativi all’utilizzo o alla condivisione dei dati. I ricercatori della Data Provenance Initiative hanno scoperto che i set di dati hanno spesso licenze o termini restrittivi, che dovrebbero limitarne l’uso a fini commerciali, ad esempio.
“Questa mancanza di coerenza nel percorso dei dati rende molto difficile per gli sviluppatori fare la scelta giusta su quali dati utilizzare”, afferma Hooker.
Inoltre, è quasi impossibile essere completamente certi di non aver addestrato il modello su dati protetti da copyright, aggiunge Longpre.
Più di recente, aziende come OpenAI e Google hanno stretto accordi esclusivi di condivisione dei dati con gli editori, i principali forum come Reddit e le piattaforme di social media sul web. Ma questo diventa un altro modo per concentrare il loro potere.
“Questi contratti di esclusiva possono suddividere Internet in diverse zone in cui chi può accedervi e chi no”, spiega Longpre.
Questa tendenza avvantaggia i più grandi operatori dell’IA, che possono permettersi tali accordi, a scapito dei ricercatori, delle organizzazioni non profit e delle aziende più piccole, che faranno fatica a ottenere l’accesso. Le aziende più grandi dispongono anche delle migliori risorse per la ricerca di set di dati.
“Si tratta di una nuova ondata di accesso asimmetrico che non abbiamo mai visto in questa misura sul web aperto”, afferma Longpre.
L’Occidente contro il resto
Anche i dati utilizzati per addestrare i modelli di intelligenza artificiale sono fortemente orientati verso il mondo occidentale. Oltre il 90% dei set di dati analizzati dai ricercatori proveniva dall’Europa e dal Nord America, mentre meno del 4% proveniva dall’Africa.
“Queste serie di dati riflettono una parte del nostro mondo e della nostra cultura, ma ne omettono completamente altre”, afferma Hooker.
La predominanza della lingua inglese nei dati di addestramento si spiega in parte con il fatto che Internet è ancora per oltre il 90% in lingua inglese e che ci sono ancora molti luoghi sulla Terra in cui la connessione a Internet è molto scarsa o inesistente, afferma Giada Pistilli, etica principale di Hugging Face, che non faceva parte del team di ricerca. Ma un’altra ragione è la convenienza, aggiunge: Mettere insieme set di dati in altre lingue e tenere conto di altre culture richiede un’intenzione consapevole e molto lavoro.
Il focus occidentale di questi set di dati diventa particolarmente chiaro con i modelli multimodali. Quando a un modello di intelligenza artificiale vengono richiesti i suoni e le immagini di un matrimonio, ad esempio, potrebbe essere in grado di rappresentare solo matrimoni occidentali, perché è l’unica cosa su cui è stato addestrato, dice Hooker.
Questo rafforza i pregiudizi e potrebbe portare a modelli di IA che spingono una certa visione del mondo USA-centrica, cancellando altre lingue e culture.
“Stiamo usando questi modelli in tutto il mondo e c’è un’enorme discrepanza tra il mondo che vediamo e quello che è invisibile a questi modelli”, dice Hooker.