STEPHANIE ARNETT/MIT TECHNOLOGY REVIEW | PUBLIC DOMAIN

Meta ha creato un modo per filigranare l’audio generato dall’IA

Lo strumento, chiamato AudioSeal, potrebbe contribuire a contrastare il crescente utilizzo di strumenti di clonazione vocale per truffe e disinformazione.

Meta ha creato un sistema in grado di incorporare segnali nascosti, noti come filigrane, nelle clip audio generate dall’intelligenza artificiale, che potrebbe aiutare a individuare i contenuti generati dall’intelligenza artificiale online.

Lo strumento, chiamato AudioSeal, è il primo in grado di individuare quali parti dell’audio, ad esempio in un podcast di un’ora intera, potrebbero essere state generate dall’intelligenza artificiale. Potrebbe contribuire ad affrontare il crescente problema della disinformazione e delle truffe che utilizzano strumenti di clonazione vocale, afferma Hady Elsahar, ricercatore di Meta. Attori malintenzionati hanno usato l’IA generativa per creare deepfakes audio del presidente Joe Biden e i truffatori hanno usato deepfakes per ricattare le loro vittime. In teoria, i watermark potrebbero aiutare le aziende di social media a individuare e rimuovere i contenuti indesiderati.

Tuttavia, ci sono alcune importanti avvertenze. Meta afferma di non avere ancora in programma di applicare i watermark all’audio generato dall’intelligenza artificiale e creato con i suoi strumenti. I watermark audio non sono ancora adottati su larga scala e non esiste un unico standard industriale concordato. Inoltre, i watermark per i contenuti generati dall’intelligenza artificiale tendono a essere facilmente manomissibili, ad esempio rimuovendoli o falsificandoli.

La rapidità del rilevamento e la capacità di individuare gli elementi di un file audio generati dall’intelligenza artificiale saranno fondamentali per rendere il sistema utile, afferma Elsahar. Secondo Elsahar, il team ha raggiunto un’accuratezza compresa tra il 90% e il 100% nel rilevamento dei watermark, risultati molto migliori rispetto ai precedenti tentativi di watermarking audio.

AudioSeal è disponibile gratuitamente su GitHub. Chiunque può scaricarlo e usarlo per aggiungere filigrane alle clip audio generate dall’intelligenza artificiale. In futuro potrebbe essere sovrapposto ai modelli di generazione audio dell’IA, in modo da essere applicato automaticamente a qualsiasi discorso generato con essi. I ricercatori che l’hanno creata presenteranno il loro lavoro alla Conferenza internazionale sull’apprendimento automatico che si terrà a Vienna, in Austria, nel mese di luglio. 

AudioSeal viene creato utilizzando due reti neurali. Una genera segnali di watermarking che possono essere incorporati nelle tracce audio. Questi segnali sono impercettibili all’orecchio umano, ma possono essere rilevati rapidamente utilizzando l’altra rete neurale. Attualmente, se si vuole cercare di individuare l’audio generato dall’intelligenza artificiale in una clip più lunga, è necessario passare al setaccio l’intero brano in pezzi da un secondo all’altro per vedere se qualcuno di essi contiene un watermark. Si tratta di un processo lento e laborioso, poco pratico su piattaforme di social media con milioni di minuti di parlato. 

AudioSeal funziona in modo diverso: incorpora un watermark in ogni sezione dell’intera traccia audio. In questo modo, la filigrana è “localizzata” e può essere rilevata anche se l’audio viene ritagliato o modificato.

Ben Zhao, professore di informatica all’Università di Chicago, sostiene che questa capacità e l’accuratezza quasi perfetta del rilevamento rendono AudioSeal migliore di qualsiasi altro sistema di watermarking audio in cui si sia imbattuto.

“È significativo esplorare la ricerca per migliorare lo stato dell’arte del watermarking, in particolare per mezzi come il parlato, che spesso sono più difficili da contrassegnare e rilevare rispetto ai contenuti visivi”, afferma Claire Leibowicz, responsabile dell’integrità dell’IA e dei media presso l’organizzazione no-profit Partnership on AI.

Ma ci sono alcuni difetti importanti che devono essere superati prima che questo tipo di watermark audio possa essere adottato in massa. I ricercatori di Meta hanno testato diversi attacchi per rimuovere i watermark e hanno scoperto che più informazioni vengono divulgate sull’algoritmo di watermarking, più è vulnerabile. Il sistema richiede inoltre che le persone aggiungano volontariamente il watermark ai loro file audio. 

Secondo Zhao, questo pone alcune limitazioni fondamentali allo strumento. “Se l’attaccante ha accesso al rilevatore [di filigrana], è piuttosto fragile”, afferma. Questo significa che solo Meta sarà in grado di verificare se il contenuto audio è generato dall’IA o meno.

Leibowicz afferma di non essere convinta che i watermark possano effettivamente aumentare la fiducia del pubblico nelle informazioni che vede o ascolta, nonostante la loro popolarità come soluzione nel settore tecnologico. Ciò è dovuto in parte al fatto che sono essi stessi così aperti all’abuso.

“Sono scettico sul fatto che qualsiasi filigrana sia resistente alla rimozione e alla contraffazione”, aggiunge.

Related Posts
Total
0
Share