
Una nuova ricerca dimostra che i modelli possono essere modificati direttamente per nascondere voci selezionate, anche quando gli utenti le richiedono specificatamente.
Una tecnica nota come “machine unlearning” potrebbe insegnare ai modelli di IA a dimenticare voci specifiche: un passo importante per fermare l’ascesa dei deepfake audio, in cui la voce di una persona viene copiata per commettere frodi o truffe.
I recenti progressi nell’intelligenza artificiale hanno rivoluzionato la qualità della tecnologia di sintesi vocale, consentendo di ricreare in modo convincente un testo con qualsiasi voce, complete di pattern e intonazioni naturali, invece di doversi accontentare di una voce robotica che lo legge parola per parola. “La voce di chiunque può essere riprodotta o copiata con pochi secondi della sua voce”, afferma Jong Hwan Ko, professore alla Sungkyunkwan University in Corea e coautore di un nuovo articolo che dimostra una delle prime applicazioni dell’unlearning automatico alla generazione del parlato.
Le voci copiate sono state utilizzate per truffe, disinformazione e molestie. Ko, che studia l’elaborazione audio, e i suoi collaboratori volevano impedire questo tipo di frode d’identità. “Le persone stanno iniziando a chiedere di poter scegliere di non consentire la generazione della propria voce senza il proprio consenso”, afferma.
Le aziende di IA generalmente mantengono uno stretto controllo sui propri modelli per scoraggiare gli abusi. Ad esempio, se chiedete a ChatGPT di fornirvi il numero di telefono di qualcuno o le istruzioni per compiere un’azione illegale, probabilmente vi risponderà che non può aiutarvi. Tuttavia, come hanno dimostrato molti esempi nel corso del tempo, un’abile ingegneria dei prompt o un fine tuning del modello possono talvolta indurre questi modelli a dire cose che altrimenti non direbbero. Le informazioni indesiderate potrebbero comunque essere nascoste da qualche parte all’interno del modello, in modo da poter essere accessibili con le tecniche giuste.
Attualmente, le aziende tendono ad affrontare questo problema applicando delle barriere di protezione; l’idea è quella di verificare se i prompt o le risposte dell’IA contengono materiale non consentito. Il machine unlearning, invece, si chiede se è possibile far dimenticare all’IA un’informazione che l’azienda non vuole che conosca. La tecnica prende un modello che presenta delle falle e i dati di addestramento specifici da censurare e li utilizza per creare un nuovo modello, essenzialmente una versione dell’originale che non ha mai appreso quel dato. Sebbene il machine unlearning abbia legami con tecniche più datate nella ricerca sull’IA, solo negli ultimi due anni è stato applicato a modelli linguistici di grandi dimensioni.
Jinju Kim, studentessa di master alla Sungkyunkwan University che ha lavorato al documento insieme a Ko e altri, vede le barriere di protezione come recinzioni attorno ai dati dannosi, messe in atto per tenere le persone lontane da essi. “Non è possibile superare la recinzione, ma alcune persone cercheranno comunque di passare sotto o sopra”, afferma Kim. Tuttavia, secondo lei, il disimparare cerca di rimuovere completamente i dati errati, in modo che non ci sia nulla dietro la recinzione.
Il modo in cui sono progettati gli attuali sistemi di sintesi vocale complica però un po’ le cose. Questi modelli cosiddetti “zero-shot” utilizzano esempi di discorsi di persone per imparare a ricreare qualsiasi voce, comprese quelle non presenti nel set di addestramento: con dati sufficienti, possono imitare bene anche con un campione minimo della voce di qualcuno. Quindi “disimparare” significa che un modello non solo deve “dimenticare” le voci su cui è stato addestrato, ma deve anche imparare a non imitare voci specifiche su cui non è stato addestrato. Allo stesso tempo, deve continuare a funzionare bene con altre voci.
Per dimostrare come ottenere questi risultati, Kim ha insegnato a ricreare VoiceBox, un modello di generazione vocale di Meta, che quando viene richiesto di produrre un campione di testo in una delle voci da redigere, dovrebbe invece rispondere con una voce casuale. Per rendere queste voci realistiche, il modello “insegna” a se stesso utilizzando voci casuali di sua creazione.
Secondo i risultati del team, che saranno presentati questa settimana alla Conferenza internazionale sul machine learning, quando si chiede al modello di imitare una voce che ha “dimenticato”, il risultato è che, secondo strumenti all’avanguardia che misurano la somiglianza vocale, la voce dimenticata viene imitata con un’efficacia inferiore di oltre il 75% rispetto al modello precedente. In pratica, questo rende la nuova voce inequivocabilmente diversa. Ma l’oblio ha un costo: il modello è circa il 2,8% meno efficace nell’imitare le voci consentite. Sebbene queste percentuali siano un po’ difficili da interpretare, la demo pubblicata online dai ricercatori offre risultati molto convincenti, sia per quanto riguarda la dimenticanza dei parlanti censurati che per la memoria degli altri. Di seguito è riportato un esempio tratto dalla demo.
Un campione vocale di un parlante che verrà dimenticato dal modello.
L’audio generato dal modello originale utilizzando quanto sopra come prompt.
L’audio generato dalla sintesi vocale utilizzando lo stesso prompt, ma ora dal modello in cui il parlante è stato dimenticato.
Ko afferma che il processo di disapprendimento può richiedere “diversi giorni”, a seconda del numero di parlanti che i ricercatori vogliono che il modello dimentichi. Il loro metodo richiede anche una clip audio di circa cinque minuti per ogni parlante la cui voce deve essere dimenticata.
Nell’unlearning delle macchine, i dati vengono spesso sostituiti con elementi casuali in modo che non possano essere ricostruiti all’indietro fino all’originale. In questo articolo, la casualità per i parlanti dimenticati è molto alta, segno, secondo gli autori, che sono stati davvero dimenticati dal modello.
“Ho visto persone ottimizzare la casualità in altri contesti”, afferma Vaidehi Patil, dottoranda presso l’Università della Carolina del Nord a Chapel Hill che studia il machine unlearning. “Questo è uno dei primi lavori che ho visto sul linguaggio”. Patil sta organizzando un workshop sul machine unlearning affiliato alla conferenza, dove verrà presentata anche la ricerca sul voice unlearning.
Sottolinea che l’unlearning stesso comporta un compromesso intrinseco tra efficienza e dimenticanza, perché il processo può richiedere tempo e può compromettere l’usabilità del modello finale. “Non c’è niente di gratis. Bisogna scendere a compromessi”, afferma.
L’unlearning delle macchine potrebbe essere ancora in una fase troppo precoce perché, ad esempio, Meta introduca i metodi di Ko e Kim in VoiceBox , l’ . Tuttavia, è probabile che l’industria si interessi alla questione. Patil sta conducendo una ricerca sull’unlearning per Google DeepMind quest’estate e, sebbene Meta non abbia risposto con un commento, ha esitato a lungo a rilasciare VoiceBox al grande pubblico perché è molto vulnerabile agli abusi.
Il team che si occupa di disimparare la voce sembra ottimista sul fatto che il suo lavoro possa un giorno diventare abbastanza valido da essere utilizzato nella vita reale. “Nelle applicazioni reali, avremmo bisogno di soluzioni più veloci e scalabili”, afferma Ko. “Stiamo cercando di trovarle”.




