Skip to main content
Stephanie Arnett / MIT Technology Review | Envato

Questa tecnica è stata utilizzata nel corso della storia, ma ora potrebbe essere uno strumento in una delle più grandi battaglie dell’intelligenza artificiale.

Fin dall’inizio del boom dell’IA generativa, i creatori di contenuti hanno sostenuto che il loro lavoro è stato inserito nei modelli di IA senza il loro consenso. Ma finora è stato difficile sapere se un testo specifico sia stato effettivamente utilizzato in un set di dati di addestramento.

Ora hanno un nuovo modo per dimostrarlo: le “trappole per il copyright” sviluppate da un team dell’Imperial College di Londra, sono pezzi di testo nascosti che consentono a scrittori ed editori di contrassegnare in modo sottile le loro opere per poter poi rilevare se sono state utilizzate o meno nei modelli di AI. L’idea è simile alle trappole utilizzate dai detentori del copyright nel corso della storia, come l’inserimento di luoghi falsi su una mappa o di parole false in un dizionario.

Queste trappole si inseriscono in una delle più grandi battaglie dell’IA. Diversi editori e scrittori sono nel bel mezzo di cause contro aziende tecnologiche che sostengono che la loro proprietà intellettuale è stata inserita in set di dati per l’addestramento dell’IA senza il loro permesso. La causa in corso del New York Times contro OpenAI è probabilmente quella di più alto profilo. 

Il codice per generare e rilevare le trappole è attualmente disponibile su GitHub, ma il team intende anche creare uno strumento che consenta di generare e inserire autonomamente le trappole per il copyright.

“C’è una totale mancanza di trasparenza in termini di contenuti utilizzati per addestrare i modelli e pensiamo che questo impedisca di trovare il giusto equilibrio [tra le aziende di IA e i creatori di contenuti]”, afferma Yves-Alexandre de Montjoye, professore associato di matematica applicata e informatica all’Imperial College di Londra, che ha guidato la ricerca. La ricerca è stata presentata alla Conferenza internazionale sull’apprendimento automatico (International Conference on Machine Learning), una delle principali conferenze sull’IA che si tiene a Vienna questa settimana.

Per creare le trappole, il team ha utilizzato un generatore di parole per creare migliaia di frasi sintetiche. Queste frasi sono lunghe e piene di parole senza senso e potrebbero avere un aspetto simile a questo: “Quando arrivano i tempi di agitazione… cosa è in vendita e soprattutto quando, è meglio, questo elenco ti dice chi sta aprendo di notte con i loro orari di vendita regolari e altri orari di apertura dai tuoi vicini. Ancora…”.

Il team ha generato 100 frasi trappola e ne ha scelta una a caso da iniettare più volte in un testo, spiega de Montjoye. La trappola poteva essere inserita nel testo in diversi modi, ad esempio come testo bianco su sfondo bianco o incorporata nel codice sorgente dell’articolo. Questa frase doveva essere ripetuta nel testo da 100 a 1.000 volte.

Per individuare le trappole, hanno dato in pasto a un modello linguistico di grandi dimensioni le 100 frasi sintetiche che avevano generato e hanno osservato se le segnalava come nuove o meno. Se il modello aveva visto una frase trappola nei suoi dati di addestramento, indicava un punteggio di “sorpresa” (noto anche come “perplessità”) più basso. Ma se il modello era “sorpreso” dalle frasi, significava che le incontrava per la prima volta e quindi non erano trappole.

In passato, i ricercatori hanno proposto di sfruttare il fatto che i modelli linguistici memorizzano i loro dati di addestramento per determinare se qualcosa è apparso in quei dati. Questa tecnica, chiamata “membership inference attack“, funziona efficacemente nei modelli di grandi dimensioni allo stato dell’arte, che tendono a memorizzare molti dati durante l’addestramento.

Al contrario, i modelli più piccoli, che stanno guadagnando popolarità e possono essere eseguiti su dispositivi mobili, memorizzano meno e sono quindi meno suscettibili agli attacchi di inferenza di appartenenza, il che rende più difficile determinare se sono stati addestrati o meno su un particolare documento protetto da copyright, afferma Gautam Kamath, assistente di informatica presso l’Università di Waterloo, che non ha partecipato alla ricerca.

Le trappole del copyright sono un modo per effettuare attacchi di inferenza di appartenenza anche su modelli più piccoli. Il team ha iniettato le trappole nel set di dati di addestramento di CroissantLLM, un nuovo modello linguistico bilingue francese-inglese che è stato addestrato da zero da un team di ricercatori industriali e accademici con cui il team dell’Imperial College di Londra ha collaborato. CroissantLLM ha 1,3 miliardi di parametri, una frazione rispetto ai modelli più avanzati (GPT-4 ne ha 1,76 trilioni, per esempio).

La ricerca dimostra che è effettivamente possibile introdurre tali trappole nei dati testuali in modo da aumentare significativamente l’efficacia degli attacchi di inferenza di appartenenza, anche per modelli più piccoli, afferma Kamath. Ma c’è ancora molto da fare, aggiunge.

La ripetizione di una frase di 75 parole per 1.000 volte in un documento rappresenta un’importante modifica del testo originale, che potrebbe consentire a chi addestra i modelli di intelligenza artificiale di individuare la trappola e di saltare i contenuti che la contengono, oppure di eliminarla e addestrarsi sul resto del testo, spiega Kamath. Inoltre, rende il testo originale difficile da leggere.

Secondo Sameer Singh, professore di informatica presso l’Università della California, Irvine, e cofondatore della startup Spiffy AI, le trappole per il copyright non sono al momento praticabili. Lui non ha partecipato alla ricerca. “Molte aziende effettuano la deduplicazione, cioè ripuliscono i dati, e probabilmente questo tipo di materiale verrà buttato via”, afferma Singh.

Un modo per migliorare le trappole per il copyright, dice Kamath, sarebbe quello di trovare altri modi per contrassegnare i contenuti protetti da copyright in modo che gli attacchi di inferenza di appartenenza funzionino meglio su di essi, o di migliorare gli attacchi di inferenza di appartenenza stessi.

De Montjoye riconosce che le trappole non sono infallibili. Un attaccante motivato che sia a conoscenza di una trappola può rimuoverla.

“Se riusciranno a rimuoverle tutte o meno è una questione aperta, e probabilmente sarà un po’ un gioco del gatto e del topo”, dice. Ma anche in questo caso, più trappole vengono applicate, più diventa difficile rimuoverle tutte senza ingenti risorse ingegneristiche.

“È importante tenere presente che le trappole per il copyright possono essere solo una soluzione provvisoria o un semplice inconveniente per i formatori di modelli”, afferma Kamath. “Non si può rilasciare un contenuto contenente una trappola e avere la certezza che sarà una trappola efficace per sempre”.