Skip to main content
COURTESY SYNTHESIA

Con corpi che si muovono e mani che si agitano, i deepfakes sono diventati molto più realistici.

Gli avatar generati dall’intelligenza artificiale della startup Synthesia stanno per essere aggiornati per renderli ancora più realistici: presto avranno corpi in grado di muoversi e mani che gesticolano.

I nuovi avatar a corpo intero saranno in grado di fare cose come cantare e brandire un microfono mentre ballano, o muoversi da dietro una scrivania e attraversare una stanza. Saranno in grado di esprimere emozioni più complesse di quanto sia stato possibile in precedenza, come l’eccitazione, la paura o il nervosismo, afferma Victor Riparbelli, amministratore delegato dell’azienda. Synthesia intende lanciare i nuovi avatar verso la fine dell’anno.

“È davvero impressionante. Nessun altro è in grado di farlo”, afferma Jack Saunders, ricercatore dell’Università di Bath, che non ha partecipato al lavoro di Synthesia.

Gli avatar a corpo intero che ha provato in anteprima sono molto buoni, dice, nonostante piccoli errori come le mani che a volte si “tagliano” l’una con l’altra. Ma “è probabile che non si guardi così da vicino per notarli”, dice Saunders.

Synthesia ha lanciato la sua prima versione di iperrealistici avatar AI noti anche come deepfakes, ad aprile. Questi avatar utilizzano modelli linguistici di grandi dimensioni per abbinare le espressioni e il tono di voce al sentiment del testo parlato. I modelli di diffusione, utilizzati nei sistemi di IA che generano immagini e video, creano l’aspetto dell’avatar. Tuttavia, gli avatar di questa generazione appaiono solo dal busto in su, il che può sminuire l’altrimenti impressionante realismo. Per creare gli avatar a corpo intero, Synthesia sta costruendo un modello di intelligenza artificiale ancora più grande. Gli utenti dovranno recarsi in uno studio per registrare i movimenti del proprio corpo.

PER GENTILE CONCESSIONE DI SYNTHESIA

Ma prima che questi avatar a corpo intero siano disponibili, l’azienda sta lanciando un’altra versione di avatar AI che hanno le mani e possono essere ripresi da più angolazioni. I loro predecessori erano disponibili solo in modalità verticale ed erano visibili solo frontalmente.

Altre startup, come Hour One, hanno lanciato avatar simili con le mani. La versione di Synthesia, che ho avuto modo di testare in anteprima durante una ricerca e che sarà lanciata a fine luglio, presenta movimenti delle mani e sincronizzazione labiale leggermente più realistici.

L’aggiornamento in arrivo rende inoltre molto più semplice la creazione di un avatar personalizzato. I precedenti avatar AI personalizzati dell’azienda richiedevano agli utenti di recarsi in uno studio per registrare il proprio volto e la propria voce nell’arco di un paio d’ore, come ho riferito in aprile.

Questa volta, ho registrato il materiale necessario in soli 10 minuti nell’ufficio di Synthesia, utilizzando una fotocamera digitale, un microfono da tavolo e un computer portatile. Ma anche una configurazione più semplice, come la telecamera di un computer portatile, sarebbe stata sufficiente. E mentre prima dovevo registrare separatamente i movimenti del viso e la voce, questa volta i dati sono stati raccolti contemporaneamente. Il processo comprende anche la lettura di un testo che esprime il consenso alla registrazione e la lettura di un codice di sicurezza generato a caso.

Queste modifiche consentono una maggiore scalabilità e danno ai modelli di intelligenza artificiale che alimentano gli avatar più capacità con meno dati, spiega Riparbelli. I risultati sono anche molto più rapidi. Mentre ho dovuto aspettare qualche settimana per avere il mio avatar fatto in studio, i nuovi avatar fatti in casa erano disponibili il giorno dopo. Qui sotto potete vedere il mio test dei nuovi avatar fatti in casa con le mani.

PER GENTILE CONCESSIONE DI SYNTHESIA

Gli avatar fatti in casa non sono ancora espressivi come quelli realizzati in studio e gli utenti non possono cambiare lo sfondo dei loro avatar, afferma Alexandru Voica, responsabile degli affari aziendali e delle politiche di Synthesia. Le mani sono animate utilizzando una forma avanzata di tecnologia di looping, che ripete gli stessi movimenti delle mani in modo da rispondere al contenuto del copione.

Le mani sono difficili da interpretare per l’intelligenza artificiale, anche più dei volti, mi ha detto a marzo Vittorio Ferrari, direttore scientifico di Synthesia. Questo perché la nostra bocca si muove in modi relativamente piccoli e prevedibili mentre parliamo, rendendo possibile la sincronizzazione della versione deepfake con il parlato, ma muoviamo le mani in molti modi diversi. D’altra parte, mentre i volti richiedono una grande attenzione ai dettagli perché tendiamo a concentrarci su di essi, le mani possono essere meno precise, dice Ferrari.

Anche se imperfetti, le mani e i corpi generati dall’intelligenza artificiale aggiungono molto all’illusione di realismo, il che comporta seri rischi in un periodo in cui proliferano i deepfakes e la disinformazione online. Synthesia applica rigorose politiche di moderazione dei contenuti, controllando attentamente sia i suoi clienti sia il tipo di contenuti che sono in grado di generare. Ad esempio, solo le testate giornalistiche accreditate possono generare contenuti sulle notizie. 

Questi nuovi progressi nelle tecnologie degli avatar sono un altro colpo di martello alla nostra capacità di credere a ciò che vediamo online, dice Saunders.

“La gente deve sapere che non ci si può fidare di nulla”, afferma. “Synthesia lo sta facendo ora, e tra un anno sarà meglio e altre aziende lo faranno”.