
L’azienda ha condotto un esperimento di massa sull’utilità del suo strumento di watermarking SynthID facendo classificare milioni di utenti Gemini.
Google DeepMind ha sviluppato uno strumento per identificare il testo generato dall’intelligenza artificiale e lo sta rendendo disponibile open source.
Lo strumento, chiamato SynthID, fa parte di una più ampia famiglia di strumenti di watermarking per i risultati generativi dell’IA. L’anno scorso l’azienda ha presentato un watermark per le immagini e da allora ne ha lanciato uno per i video generati dall’IA. A maggio, Google ha annunciato l’applicazione di SynthID nella sua app Gemini e nei chatbot online e lo ha reso disponibile gratuitamente su Hugging Face, un archivio aperto di set di dati e modelli di IA. Le filigrane sono emerse come uno strumento importante per aiutare le persone a determinare quando qualcosa è generato dall’IA, il che potrebbe contribuire a contrastare danni come la disinformazione.
“Ora, altri sviluppatori di IA [generativa] potranno utilizzare questa tecnologia per aiutarli a rilevare se gli output di testo provengono dai loro [modelli linguistici di grandi dimensioni], rendendo più facile per un maggior numero di sviluppatori costruire IA in modo responsabile”, afferma Pushmeet Kohli, vicepresidente della ricerca di Google DeepMind.
SynthID funziona aggiungendo una filigrana invisibile direttamente nel testo quando questo viene generato da un modello AI.
I modelli linguistici di grandi dimensioni funzionano scomponendo il linguaggio in “token” e prevedendo quale token è più probabile che segua l’altro. I token possono essere un singolo carattere, una parola o una parte di una frase, e a ciascuno di essi viene assegnato un punteggio percentuale per la probabilità che sia la parola successiva appropriata in una frase. Più alta è la percentuale, più è probabile che il modello la utilizzi.
SynthID introduce informazioni aggiuntive al momento della generazione, modificando la probabilità che i token vengano generati, spiega Kohli.
Per rilevare la filigrana e determinare se il testo è stato generato da uno strumento di intelligenza artificiale, SynthID confronta i punteggi di probabilità previsti per le parole del testo filigranato e non filigranato.
Google DeepMind ha scoperto che l’uso del watermark SynthID non compromette la qualità, l’accuratezza, la creatività o la velocità del testo generato. Questa conclusione è stata tratta da un massiccio esperimento dal vivo sulle prestazioni di SynthID dopo che il watermark è stato implementato nei prodotti Gemini e utilizzato da milioni di persone. Gemini consente agli utenti di classificare la qualità delle risposte del modello AI con un pollice in su o un pollice in giù.
Kohli e il suo team hanno analizzato i punteggi di circa 20 milioni di risposte di chatbot con e senza watermark. Hanno scoperto che gli utenti non hanno notato alcuna differenza in termini di qualità e utilità tra i due. I risultati di questo esperimento sono descritti in dettaglio in un articolo pubblicato oggi su Nature. Attualmente SynthID for text funziona solo sui contenuti generati dai modelli di Google, ma la speranza è che l’open-sourcing possa ampliare la gamma di strumenti con cui è compatibile.
SynthID presenta altre limitazioni. La filigrana è stata resistente ad alcune manomissioni, come il ritaglio del testo e una leggera modifica o riscrittura, ma è risultata meno affidabile quando il testo generato dall’intelligenza artificiale è stato riscritto o tradotto da una lingua all’altra. È meno affidabile anche nelle risposte a richieste di informazioni concrete, come la capitale della Francia. Questo perché ci sono meno opportunità di regolare la probabilità della prossima parola possibile in una frase senza cambiare i fatti.
“Raggiungere un watermarking affidabile e impercettibile del testo generato dall’intelligenza artificiale è una sfida fondamentale, soprattutto in scenari in cui i risultati dell’intelligenza artificiale sono quasi deterministici, come le domande sui fatti o i compiti di generazione di codici”, afferma Soheil Feizi, professore associato presso l’Università del Maryland, che ha studiato le vulnerabilità del watermarking dell’intelligenza artificiale.
Feizi afferma che la decisione di Google DeepMind di rendere open source il suo metodo di watermarking è un passo positivo per la comunità dell’IA. “Permette alla comunità di testare questi rilevatori e di valutarne la robustezza in diversi contesti, aiutando a comprendere meglio i limiti di queste tecniche”, aggiunge.
C’è anche un altro vantaggio, dice João Gante, ingegnere di apprendimento automatico presso Hugging Face. L’open-sourcing dello strumento significa che chiunque può prendere il codice e incorporare il watermarking nel proprio modello senza alcun vincolo, dice Gante. Questo migliorerà la privacy del watermark, poiché solo il proprietario ne conoscerà i segreti crittografici.
“Con una migliore accessibilità e la possibilità di confermarne le capacità, voglio credere che il watermarking diventerà lo standard, il che dovrebbe aiutarci a rilevare l’uso dannoso dei modelli linguistici”, afferma Gante.
Ma le filigrane non sono una soluzione universale, afferma Irene Solaiman, responsabile delle politiche globali di Hugging Face.
“Il watermarking è un aspetto dei modelli più sicuri in un ecosistema che ha bisogno di molte protezioni complementari. Parallelamente, anche per i contenuti generati dall’uomo, il fact-checking ha un’efficacia variabile“, afferma l’autrice.