Skip to main content
PER GENTILE CONCESSIONE DI SYNTHESIA

La “uncanny valley” si sta restringendo. Siamo pronti per ciò che verrà dopo?

All’inizio dell’estate, ho attraversato la hall vetrata di un elegante ufficio a Londra, sono entrata in un ascensore e poi ho percorso un corridoio fino a raggiungere una stanza pulita e rivestita di moquette. La luce naturale inondava la stanza attraverso le finestre e due grandi impianti di illuminazione a forma di ombrello la rendevano ancora più luminosa. Ho cercato di non strizzare gli occhi mentre prendevo posto davanti a un treppiede dotato di una grande telecamera e di un laptop che mostrava un gobbo. Ho fatto un respiro profondo e ho iniziato a leggere il copione.

Non ero lì come giornalista né come attore per un provino per un film: stavo visitando l’azienda di intelligenza artificiale Synthesia per fornirle ciò di cui aveva bisogno per creare un avatar iperrealistico di me generato dall’intelligenza artificiale. Gli avatar dell’azienda sono un buon indicatore di quanto siano stati vertiginosi i progressi nell’intelligenza artificiale negli ultimi anni, quindi ero curiosa di sapere con quanta precisione il suo ultimo modello di intelligenza artificiale, introdotto il mese scorso, potesse replicarmi.

Quando Synthesia è stata lanciata nel 2017, il suo scopo principale era quello di abbinare versioni AI di volti umani reali, ad esempio l’ex calciatore David Beckham, a voci doppiate che parlavano in diverse lingue. Qualche anno dopo, nel 2020, ha iniziato a offrire alle aziende che si sono iscritte ai suoi servizi la possibilità di realizzare video di presentazione di livello professionale con protagonisti versioni AI dei membri del personale o attori consenzienti. Ma la tecnologia non era perfetta. I movimenti del corpo degli avatar potevano essere a scatti e innaturali, i loro accenti a volte scivolavano e le emozioni indicate dalle loro voci non sempre corrispondevano alle loro espressioni facciali.

Ora gli avatar di Synthesia sono stati aggiornati con manierismi e movimenti più naturali, oltre che con voci espressive che preservano meglio l’accento di chi parla, rendendoli più umani che mai. Per i clienti aziendali di Synthesia, questi avatar renderanno più eleganti le presentazioni dei risultati finanziari, le comunicazioni interne o i video di formazione del personale.

Ho trovato il video che mostrava il mio avatar tanto inquietante quanto tecnicamente impressionante. È abbastanza elegante da passare per una registrazione in alta definizione di un allegro discorso aziendale e, se non mi conosceste, probabilmente pensereste che sia proprio così. Questa dimostrazione mostra quanto sia sempre più difficile distinguere l’artificiale dal reale. E tra non molto questi avatar saranno persino in grado di risponderci. Ma quanto potranno migliorare? E quali potrebbero essere le conseguenze dell’interazione con i cloni dell’IA?

Il processo di creazione

Quando la mia ex collega Melissa ha visitato lo studio londinese di Synthesia per creare un avatar di se stessa l’anno scorso, ha dovuto sottoporsi a un lungo processo di calibrazione del sistema, leggendo un copione in diversi stati emotivi e pronunciando i suoni necessari per aiutare il suo avatar a formare vocali e consonanti. Mentre mi trovo in quella stanza luminosa 15 mesi dopo, sono sollevato nel sentire che il processo di creazione è stato notevolmente semplificato. Josh Baker-Mendoza, supervisore tecnico di Synthesia, mi incoraggia a gesticolare e muovere le mani come farei durante una conversazione naturale, avvertendomi però di non muovermi troppo. Ripeto diligentemente un copione eccessivamente entusiasta, pensato per incoraggiarmi a parlare in modo emotivo ed entusiasta. Il risultato è un po’ come se Steve Jobs fosse resuscitato sotto forma di una donna britannica bionda con una voce bassa e monotona.

Ha anche l’effetto sfortunato di farmi sembrare una dipendente di Synthesia. “Sono così entusiasta di essere qui con voi oggi per mostrarvi ciò su cui abbiamo lavorato. Siamo all’avanguardia dell’innovazione e le possibilità sono infinite”, ripeto con entusiasmo, cercando di sembrare vivace piuttosto che maniacale. “Quindi preparatevi a partecipare a qualcosa che vi farà esclamare ‘Wow!’. Questa opportunità non è solo grande, è monumentale”.

Solo un’ora dopo, il team ha tutte le riprese di cui ha bisogno. Un paio di settimane dopo ricevo due avatar di me stessa: uno basato sul precedente modello Express-1 e l’altro realizzato con la più recente tecnologia Express-2. Quest’ultimo, secondo Synthesia, rende i suoi esseri umani sintetici più realistici e fedeli alle persone su cui sono modellati, con gesti delle mani, movimenti facciali e discorsi più espressivi. Potete vedere voi stessi i risultati qui sotto.

Ho trovato il video che mostra il mio avatar tanto inquietante quanto tecnicamente impressionante. È abbastanza realistico da passare per una registrazione in alta definizione di un allegro discorso aziendale e, se non mi conoscessi, probabilmente penseresti che sia proprio così. Questa dimostrazione mostra quanto sia sempre più difficile distinguere l’artificiale dal reale. E tra non molto questi avatar saranno persino in grado di risponderci. Ma quanto potranno migliorare? E quali potrebbero essere le conseguenze dell’interazione con i cloni dell’IA?

PER GENTILE CONCESSIONE DI SYNTHESIA

L’anno scorso, Melissa ha scoperto che il suo avatar basato su Express-1 non riusciva a riprodurre il suo accento transatlantico. Anche la sua gamma di emozioni era limitata: quando ha chiesto al suo avatar di leggere un copione con tono arrabbiato, sembrava più lamentoso che furioso. Nei mesi successivi, Synthesia ha migliorato Express-1, ma la versione del mio avatar realizzata con la stessa tecnologia sbatte le palpebre furiosamente e fa ancora fatica a sincronizzare i movimenti del corpo con il parlato.

Al contrario, mi colpisce quanto il mio nuovo avatar Express-2 mi assomigli: i suoi lineamenti rispecchiano perfettamente i miei. Anche la sua voce è incredibilmente accurata e, sebbene gesticoli più di me, i movimenti delle sue mani generalmente si adattano a ciò che sto dicendo.

Ma i piccoli segni rivelatori della generazione AI sono ancora lì, se sai dove guardare. I palmi delle mie mani sono di un rosa brillante e lisci come il mastice. Ciocche di capelli pendono rigidamente intorno alle mie spalle invece di muoversi con me. I suoi occhi fissano vitrei davanti a sé, sbattendo raramente le palpebre. E anche se la voce è inconfondibilmente la mia, c’è qualcosa di leggermente strano nelle intonazioni e nei modelli di discorso del mio clone digitale. “È fantastico!”, dichiara casualmente il mio avatar, prima di tornare a un tono più normale.

Anna Eiserbeck, ricercatrice post-dottorato in psicologia all’Università Humboldt di Berlino che ha studiato come gli esseri umani reagiscono ai volti deepfake percepiti, dice che non è sicura che sarebbe stata in grado di identificare il mio avatar come un deepfake a prima vista.

Ma alla fine avrebbe notato qualcosa di strano. Non sono solo i piccoli dettagli a tradirlo: il mio orecchino stranamente statico, il modo in cui il mio corpo a volte si muove con piccoli scatti improvvisi. È qualcosa di molto più profondo, spiega.

“C’era qualcosa che sembrava un po’ vuoto. So che dietro non c’è alcuna emozione reale, non è un essere cosciente. Non prova nulla”, dice. Guardare il video le ha dato “una strana sensazione”.

Il mio clone digitale e la reazione di Eiserbeck mi fanno riflettere su quanto questi avatar debbano essere realistici.

Mi rendo conto che parte del motivo per cui mi sento a disagio con il mio avatar è che si comporta in un modo che io raramente utilizzerei. Il suo tono stranamente allegro è in completo contrasto con il modo in cui parlo normalmente; sono una britannica cinica irriducibile che trova difficile infondere entusiasmo nella propria voce anche quando è sinceramente entusiasta o eccitata. Sono fatta così. Inoltre, guardare i video in loop mi fa chiedere se davvero agito le mani in quel modo o muovo la bocca in modo così strano. Se pensavate che confrontarvi con il vostro volto durante una chiamata su Zoom fosse umiliante, aspettate di fissare un intero avatar di voi stessi.

Quando Facebook ha iniziato a diffondersi nel Regno Unito quasi 20 anni fa, io e i miei amici pensavamo che accedere illegalmente agli account degli altri e pubblicare gli aggiornamenti di stato più scandalosi o provocatori immaginabili fosse il massimo della comicità. Mi chiedo se presto l’equivalente sarà quello di far dire all’avatar di qualcun altro qualcosa di veramente imbarazzante: esprimere sostegno a un politico caduto in disgrazia o (nel mio caso) ammettere di apprezzare la musica di Ed Sheeran.

Express-2 trasforma ogni persona che gli viene presentata in un oratore professionista raffinato con il linguaggio del corpo di un iperattivo hype man. E mentre questo ha perfettamente senso per un’azienda che si occupa di realizzare video aziendali patinati, guardare il mio avatar non è affatto come guardare me stessa. Sembra qualcosa di completamente diverso.

Come funziona

La vera sfida tecnica al giorno d’oggi non è tanto quella di creare avatar che corrispondano al nostro aspetto, quanto quella di far sì che riproducano il nostro comportamento, afferma Björn Schuller, professore di intelligenza artificiale all’Imperial College di Londra. “Ci sono molti aspetti da considerare per ottenere un risultato corretto: è necessario avere i microgesti giusti, l’intonazione giusta, il suono della voce e le parole giuste”, afferma. “Non voglio che un’intelligenza artificiale [avatar] aggrotta le sopracciglia nel momento sbagliato, perché potrebbe trasmettere un messaggio completamente diverso”.

Per ottenere un livello di realismo migliorato, Synthesia ha sviluppato una serie di nuovi modelli di IA audio e video. Il team ha creato un modello di clonazione vocale per preservare l’accento, l’intonazione e l’espressività del parlante umano, a differenza di altri modelli vocali che possono appiattire gli accenti distintivi dei parlanti in voci dal suono genericamente americano.

Quando un utente carica uno script su Express-1, il suo sistema analizza le parole per dedurre il tono corretto da utilizzare. Queste informazioni vengono poi inserite in un modello di diffusione, che rende le espressioni facciali e i movimenti dell’avatar in modo che corrispondano al discorso.

Oltre al modello vocale, Express-2 utilizza altri tre modelli per creare e animare gli avatar. Il primo genera i gesti dell’avatar che accompagnano il discorso inserito dal modello Express-Voice. Il secondo valuta quanto l’audio in ingresso sia allineato con le diverse versioni del movimento generato corrispondente, prima di selezionare quello migliore. Infine, un modello finale rende l’avatar con il movimento scelto.

Questo terzo modello di rendering è significativamente più potente del suo predecessore Express-1. Mentre il modello precedente aveva alcune centinaia di milioni di parametri, il modello di rendering di Express-2 ne ha miliardi. Ciò significa che ci vuole meno tempo per creare l’avatar, afferma Youssef Alami Mejjati, responsabile della ricerca e sviluppo di Synthesia:

“Con Express-1, era necessario prima vedere qualcuno esprimere delle emozioni per poterle renderizzare. Ora, poiché lo abbiamo addestrato su dati molto più diversificati e set di dati molto più grandi, con una potenza di calcolo molto maggiore, impara automaticamente queste associazioni senza bisogno di vederle”.

Ridurre la “uncanny valley”

Sebbene gli avatar generati dall’intelligenza artificiale simili agli esseri umani esistano da anni, il recente boom dell’intelligenza artificiale generativa sta rendendo sempre più facile e conveniente creare esseri umani sintetici realistici, che sono già stati messi al lavoro. Synthesia non è l’unica: aziende di avatar AI come Yuzu Labs, Creatify, Arcdads e Vidyard offrono alle imprese gli strumenti per generare e modificare rapidamente video con protagonisti attori AI o versioni artificiali dei membri del personale, promettendo modi convenienti per realizzare annunci pubblicitari accattivanti con cui il pubblico può identificarsi. Allo stesso modo, i cloni di livestreamer generati dall’intelligenza artificiale hanno visto esplodere la loro popolarità in tutta la Cina negli ultimi anni, in parte perché possono vendere prodotti 24 ore su 24, 7 giorni su 7, senza stancarsi e senza bisogno di essere pagati.

Per ora, almeno, Synthesia è “focalizzata” sul settore aziendale. Tuttavia, non esclude di espandersi in nuovi settori come l’intrattenimento o l’istruzione, afferma Peter Hill, direttore tecnico dell’azienda. In un passo evidente in questa direzione, Synthesia ha recentemente collaborato con Google per integrare nella sua piattaforma il nuovo potente modello di video generativo Veo 3, che consente agli utenti di generare e incorporare direttamente clip nei video di Synthesia. Ciò suggerisce che in futuro questi esseri umani artificiali iperrealistici potrebbero assumere ruoli da protagonisti in universi dettagliati con scenari in continua evoluzione.

Al momento ciò potrebbe comportare, ad esempio, l’utilizzo di Veo 3 per generare un video di macchinari per la lavorazione della carne, con un avatar Synthesia accanto alle macchine che spiega come utilizzarle in modo sicuro. Ma le versioni future della tecnologia Synthesia potrebbero portare alla creazione di video didattici personalizzabili in base al livello di conoscenza dell’individuo, afferma Alex Voica, responsabile degli affari societari e delle politiche di Synthesia. Ad esempio, un video sull’evoluzione della vita sulla Terra potrebbe essere modificato per qualcuno con una laurea in biologia o per qualcuno con conoscenze di livello liceale. “Sarà un modo molto più coinvolgente e personalizzato di fornire contenuti, e questo mi entusiasma molto”, afferma.

La prossima frontiera, secondo Synthesia, saranno gli avatar in grado di rispondere, “comprendere” le conversazioni con gli utenti e rispondere in tempo reale. Pensate a ChatGPT, ma con un essere umano digitale realistico.

Synthesia ha già aggiunto un elemento interattivo consentendo agli utenti di cliccare sulle domande sullo schermo durante i quiz presentati dai suoi avatar. Ma sta anche valutando la possibilità di renderli veramente interattivi: in futuro gli utenti potrebbero chiedere al proprio avatar di mettere in pausa e approfondire un punto, oppure porgli una domanda. “Vogliamo davvero creare la migliore esperienza di apprendimento possibile, e questo significa attraverso video divertenti ma anche personalizzati e interattivi”, afferma Alami Mejjati. “Questa, per me, è la parte mancante nelle esperienze di apprendimento online odierne. E so che siamo molto vicini a risolvere questo problema”.

Sappiamo già che gli esseri umani possono instaurare, e instaurano, profondi legami emotivi con i sistemi di IA, anche con i chatbot di base basati su testo. Combinare la tecnologia degli agenti, che è già in grado di navigare sul web, programmare e giocare ai videogiochi senza supervisione, con un volto umano realistico potrebbe inaugurare un tipo completamente nuovo di dipendenza dall’IA, afferma Pat Pataranutaporn, assistente professore al MIT Media Lab.

“Se si rende il sistema troppo realistico, le persone potrebbero iniziare a formare determinati tipi di relazioni con questi personaggi”, afferma. “Abbiamo visto molti casi in cui i compagni di intelligenza artificiale hanno influenzato comportamenti pericolosi anche quando si limitavano a inviare messaggi di testo. Se un avatar avesse una testa parlante, sarebbe ancora più coinvolgente”.

Schuller concorda sul fatto che nel prossimo futuro gli avatar saranno perfettamente ottimizzati per regolare i loro livelli di emozione e carisma in modo che il loro pubblico umano rimanga coinvolto il più a lungo possibile. “Sarà molto difficile [per gli esseri umani] competere con l’IA carismatica del futuro; è sempre presente, ha sempre un orecchio per te ed è sempre comprensiva”, afferma. “L’IA cambierà quella connessione da essere umano a essere umano”.

Mentre mi fermo e riproduco il mio avatar Express-2, immagino di conversare con esso: questo prodotto inquietante, sempre allegro, sempre disponibile, fatto di pixel e algoritmi, che mi assomiglia e ha la mia voce, ma che fondamentalmente non sono io. La Rhiannon virtuale non ha mai riso fino alle lacrime, né si è mai innamorata, né ha mai corso una maratona, né ha mai guardato il tramonto in un altro paese.

Ma, lo ammetto, potrebbe fare un’ottima presentazione sul perché Ed Sheeran è il più grande musicista mai uscito dal Regno Unito. E solo i miei amici più cari e la mia famiglia saprebbero che non sono io nella realtà.