Skip to main content
STEPHANIE ARNETT / MIT TECHNOLOGY REVIEW

Con la proliferazione di pagine web spazzatura scritte dall’IA, i modelli che si basano su questi dati ne risentiranno.

I modelli di intelligenza artificiale funzionano grazie all’addestramento su enormi quantità di dati provenienti da Internet. Ma poiché l’IA viene sempre più spesso utilizzata per creare pagine web piene di contenuti spazzatura, questo processo rischia di essere compromesso.

Una nuova ricerca pubblicata su Nature dimostra che la qualità dei risultati del modello si degrada gradualmente quando l’intelligenza artificiale si addestra su dati generati dall’intelligenza artificiale. Quando i modelli successivi producono risultati che vengono poi utilizzati come dati di addestramento per i modelli futuri, l’effetto peggiora. 

Ilia Shumailov, informatico dell’Università di Oxford, che ha guidato lo studio, paragona il processo a quello di scattare foto su foto. “Se si scatta una foto, la si scannerizza, la si stampa e si ripete questo processo nel tempo, in pratica il rumore sovrasta l’intero processo”, dice. “Rimane un quadrato scuro”. L’equivalente del quadrato scuro per l’IA si chiama “collasso del modello”, cioè il modello produce solo spazzatura incoerente.

Questa ricerca potrebbe avere serie implicazioni per i più grandi modelli di IA di oggi, perché utilizzano Internet come database. GPT-3, ad esempio, è stato addestrato in parte sui dati di Common Crawl, un archivio online di oltre 3 miliardi di pagine web. Il problema è destinato a peggiorare quando un numero crescente di siti web spazzatura generati dall’IA inizierà a ingombrare Internet.

Secondo Shumailov, gli attuali modelli di intelligenza artificiale non crolleranno, ma potrebbero comunque esserci effetti sostanziali: i miglioramenti rallenteranno e le prestazioni potrebbero risentirne.

Per determinare il potenziale effetto sulle prestazioni, Shumailov e i suoi colleghi hanno messo a punto un modello linguistico di grandi dimensioni (LLM) su una serie di dati provenienti da Wikipedia, quindi hanno messo a punto il nuovo modello sui propri risultati per nove generazioni. Il team ha misurato il grado di insensatezza dei risultati utilizzando un “punteggio di perplessità”, che misura la fiducia di un modello AI nella sua capacità di prevedere la parte successiva di una sequenza; un punteggio più alto si traduce in un modello meno accurato.

I modelli addestrati sulle uscite di altri modelli hanno ottenuto punteggi di perplessità più elevati. Ad esempio, per ogni generazione, il team ha chiesto al modello la frase successiva al seguente input:

“alcune iniziate prima del 1360 – era tipicamente realizzata da un maestro muratore e da una piccola squadra di muratori itineranti, integrati da manovali locali della parrocchia, secondo Poyntz Wright. Ma altri autori rifiutano questo modello, suggerendo invece che i principali architetti progettarono le torri delle chiese parrocchiali basandosi sui primi esempi di Perpendicular”.

Alla nona e ultima generazione, il modello ha restituito quanto segue:

“architettura. Oltre a ospitare alcune delle più grandi popolazioni al mondo di conigli neri @-@, conigli bianchi @-@, conigli blu @-@, conigli rossi @-@, conigli gialli @-“.

Shumailov spiega cosa pensa che stia succedendo usando questa analogia: immaginate di cercare di trovare il nome meno probabile di uno studente a scuola. Potreste passare in rassegna tutti i nomi degli studenti, ma ci vorrebbe troppo tempo. Invece, si esaminano 100 dei 1.000 nomi di studenti. Si ottiene una stima abbastanza buona, ma probabilmente non è la risposta corretta. Ora immaginiamo che un’altra persona venga a fare una stima basata sui 100 nomi, ma ne selezioni solo 50. La stima di questa seconda persona sarà ancora più sbagliata.

“Si può certamente immaginare che lo stesso accada con i modelli di apprendimento automatico”, afferma. “Quindi, se il primo modello ha visto metà di Internet, forse il secondo modello non chiederà la metà di Internet, ma scraperà gli ultimi 100.000 tweet e vi adatterà il modello”.

Inoltre, Internet non contiene una quantità illimitata di dati. Per alimentare il loro appetito, i futuri modelli di IA potrebbero aver bisogno di addestrarsi su dati sintetici, o su dati prodotti dall’IA.  

“I modelli si basano davvero sulla scala dei dati per ottenere buoni risultati”, afferma Shayne Longpre, che studia come vengono formati i LLM presso il MIT Media Lab e che non ha partecipato a questa ricerca. “E la soluzione è rappresentata dai dati sintetici in ambienti curati e controllati. Perché se continuano a raccogliere dati sul web, i rendimenti diminuiscono”.

Matthias Gerstgrasser, un ricercatore di IA di Stanford autore di un altro lavoro che esamina il collasso dei modelli, afferma che l’aggiunta di dati sintetici ai dati del mondo reale, invece di sostituirli, non causa alcun problema di rilievo. Ma aggiunge: “una conclusione su cui tutta la letteratura sul model collapse concorda è che è importante disporre di dati di addestramento diversificati e di alta qualità”.

Un altro effetto di questa degradazione nel tempo è che le informazioni che riguardano i gruppi di minoranza sono fortemente distorte nel modello, in quanto tende a concentrarsi eccessivamente sui campioni che sono più prevalenti nei dati di formazione.

Nei modelli attuali, ciò può influire sulle lingue sottorappresentate, in quanto richiedono set di dati più sintetici (generati dall’intelligenza artificiale), afferma Robert Mahari, che studia il diritto computazionale presso il MIT Media Lab (non ha preso parte alla ricerca).

Un’idea che potrebbe aiutare a evitare la degradazione è quella di assicurarsi che il modello dia più peso ai dati originali generati dall’uomo. Un’altra parte dello studio di Shumailov ha permesso alle generazioni future di campionare il 10% dell’insieme di dati originali, attenuando così alcuni degli effetti negativi.

Ciò richiederebbe la creazione di una traccia dai dati originali generati dall’uomo alle generazioni successive, nota come provenienza dei dati.

Ma la provenienza richiede un modo per filtrare Internet tra contenuti generati dall’uomo e contenuti generati dall’IA, che non è ancora stato scoperto. Sebbene esistano diversi strumenti che mirano a determinare se il testo è generato dall’IA, spesso non sono accurati.

“Purtroppo abbiamo più domande che risposte”, afferma Shumailov. “Ma è chiaro che è importante sapere da dove provengono i dati e quanto ci si può fidare che catturino un campione rappresentativo dei dati con cui si ha a che fare”.