Le voci sintetiche sono più umane che mai

Una nuova ondata di startup utilizza il deep learning per creare doppiatori sintetici di qualità per assistenti digitali, personaggi di videogiochi e video aziendali.

di Karen Hao

Il post sul blog dell’azienda trasuda l’entusiasmo di uno spot pubblicitario americano degli anni 1990. WellSaid Labs descrive cosa possono aspettarsi i clienti dai suoi “otto nuovi doppiatori digitali!” Tobin è “energico e intuitivo”. Paige è “equilibrata ed espressiva”. Ava è “elegante, sicura di sé e professionale”.

Ogni sistema è basato su un vero doppiatore, la cui somiglianza è stata preservata utilizzando l’intelligenza artificiale, dietro consenso di chi mette la voce. Le aziende inseriscono del testo nel motore vocale e fuoriesce un clip audio nitido dal suono naturale. WellSaid Labs, una startup con sede a Seattle nata dalla ricerca no profit dell’Allen Institute of Artificial Intelligence, è l’ultima azienda che offre voci AI ai clienti. Per ora, è specializzata in voci per video e-learning aziendali. Altre startup danno voce ad assistenti digitali, operatori di call center e persino personaggi di videogiochi. (Audio 1 e 2)

Non molto tempo fa, questi deepfake avevano una pessima reputazione per il loro uso nelle chiamate truffa e nei falsi su Internet, ma da allora il miglioramento della loro qualità ha suscitato l’interesse di un numero crescente di aziende. Le recenti scoperte nell’apprendimento profondo hanno reso possibile replicare molte delle sottigliezze del linguaggio umano. Fanno le pause al momento giusto e sono in grado di cambiare stile o mostrare emozioni. Si riesce a individuare il trucco se parlano troppo a lungo, ma in brevi clip audio, alcuni sono diventati indistinguibili dagli umani.

Le voci AI sono anche economiche, scalabili e facili da usare. A differenza di una registrazione di un doppiatore umano, le voci sintetiche possono anche aggiornareil loro copione in tempo reale, aprendo nuove opportunità per personalizzare la pubblicità. La loro ascesa, però, ha conseguenze serie in particolare per i doppiatori umani, che si fanno domande per il loro futuro.

Come fingere una voce

Le voci sintetiche sono in circolazione non da poco. Ma quelle meno recenti, comprese le voci originali di Siri e Alexa, mettono insieme parole e suoni con un effetto goffo e robotico. Farle sembrare più naturali è frutto di un laborioso compito manuale. L’apprendimento profondo ha cambiato questa situazione. Gli sviluppatori vocali non hanno più bisogno di dettare il ritmo, la pronuncia o l’intonazione esatti del discorso generato, ma possono inserire alcune ore di audio in un algoritmo e fare in modo che l’algoritmo apprenda quei modelli da solo.

Nel corso degli anni, i ricercatori hanno utilizzato questa idea di base per costruire motori vocali sempre più sofisticati. Quello costruito da WellSaid Labs, per esempio, utilizza due modelli principali di deep learning. Il primo prevede, da un passaggio di testo, i tratti ampi di come parlerà un oratore, inclusi accento, altezza e timbro vocale. Il secondo mette a punto i dettagli, inclusi la respirazione e il modo in cui la voce risuona nel suo ambiente.

Tuttavia, il processo non è automatico. Parte di ciò che rende una voce umana così umana è la sua incoerenza, espressività e capacità di presentare caratteristiche simili in stili completamente diversi, a seconda del contesto. Catturare queste sfumature implica trovare i giusti attori vocali per fornire i dati di formazione appropriati e mettere a punto i modelli di deep learning. WellSaid afferma che sono necessari almeno un’ora o due di audio e alcune settimane di lavoro per sviluppare una replica sintetica dal suono realistico. (Audio 3 e 4)

Le voci AI sono diventate particolarmente popolari tra linee di prodotti che cercano di mantenere uno stile sonoro coerente in milioni di interazioni con i clienti. Con l’ubiquità degli altoparlanti intelligenti di oggi e l’aumento degli agenti del servizio clienti automatizzati e degli assistenti digitali incorporati nelle auto e nei dispositivi intelligenti, i brand potrebbero dover produrre fino a cento ore di audio al mese. Ma la tendenza a non utilizzare più le voci generiche offerte dalla tradizionale tecnologia di sintesi vocale ha accelerato durante la pandemia poiché sempre più clienti interagiscono virtualmente con le aziende.

“Se sono Pizza Hut, devo avere un tono di voce differente da Domino’s e più che mai da Papa John’s”, afferma Rupal Patel, professore alla Northeastern University e fondatore e CEO di VocaliD, che promette di costruire voci personalizzate che corrispondono all’identità del brand aziendale. (Audio 5 e 6)

Mentre le imprese dovevano assumere doppiatori diversi a seconda dei mercati, alcune aziende di intelligenza artificiale vocale possono manipolare l’accento o cambiare la lingua di una singola voce in più modi. Questo apre la possibilità di adattare gli annunci sulle piattaforme di streaming a seconda di chi sta ascoltando, modificando non solo le caratteristiche della voce, ma anche le parole pronunciate.

Un annuncio pubblicitario di una birra potrebbe dire a un ascoltatore di fermarsi in un pub diverso a seconda che venga ascoltato a New York o Toronto, per esempio. Resemble.ai, che progetta voci per annunci e assistenti intelligenti, afferma che sta già lavorando con i clienti per lanciare tali annunci audio personalizzati su Spotify e Pandora.

Anche le industrie del gioco e dell’intrattenimento stanno vedendone i benefici. Sonantic, un’azienda specializzata in voci che possono ridere e piangere o sussurrare e gridare, lavora con produttori di videogiochi e studi di animazione per fornire le voci fuori campo per i loro personaggi. Molti dei suoi clienti utilizzano le voci sintetizzate solo in pre-produzione e passano a veri doppiatori per la produzione finale. Ma Sonantic dice che alcuni hanno iniziato a usarle in tutte le fasi, anche se per personaggi secondari. Resemble.ai e altri hanno anche lavorato con film e programmi TV per correggere le prestazioni degli attori quando le parole sono confuse o vengono pronunciate male. (Audio 7)

Ma ci sono limiti a quanto lontano può arrivare l’intelligenza artificiale. È ancora difficile mantenere il realismo di una voce per i lunghi periodi di tempo che potrebbero essere necessari per un audiolibro o un podcast. E c’è poca capacità di controllare la performance di una voce AI nello stesso modo in cui un regista può guidare un artista umano. “Siamo ancora agli albori del discorso sintetico”, afferma Zohaib Ahmed, fondatore e CEO di Resemble.ai.

Un tocco umano

In altre parole, i doppiatori umani non stanno ancora scomparendo. I progetti espressivi, creativi e di lunga durata sono ancora dominio degli umani. Inoltre, per ogni voce sintetica prodotta da queste aziende, un doppiatore deve fornire il materiale originale. Ma alcuni attori sono in ansia per il loro futuro, afferma un portavoce di SAG-AFTRA, il sindacato che rappresenta i doppiatori negli Stati Uniti. Anche se non hanno paura di essere sostituiti del tutto dall’intelligenza artificiale, sono preoccupati di essere risarciti parzialmente o di perdere il controllo sulle loro voci, che costituiscono il loro valore e la loro reputazione.

Il problema è ora oggetto di una causa contro TikTok intentata dal doppiatore canadese Bev Standing, che sostiene che la funzione di voce fuori campo integrata dell’app utilizza una copia sintetica della sua voce senza il suo permesso. L’esperienza di Standing riecheggia anche quella di Susan Bennett, la voce originale dell’americana Siri, che è stata pagata per le sue registrazioni iniziali, ma non per l’uso continuato di imitazioni della sua voce su milioni di dispositivi Apple.

Alcune aziende stanno cercando di essere più responsabili nel modo in cui interagiscono con l’industria del doppiaggio. Le più consapevoli, afferma il rappresentante di SAG-AFTRA, si sono rivolte al sindacato per trovare il modo migliore per compensare e rispettare i doppiatori per il loro lavoro.

Molti ora utilizzano un modello di condivisione degli utili per pagare gli attori ogni volta che un cliente concede in licenza la loro voce sintetica. Altri coinvolgono gli attori nel processo di progettazione della loro copia vocale automatizzata e danno loro potere di veto sui progetti in cui verrà utilizzata. SAG-AFTRA sta anche spingendo per una legislazione per proteggere gli attori da repliche illegittime della loro voce.

Per Patel di VocaliD, l’obiettivo delle voci sintetiche non è in definitiva quello di replicare le prestazioni umane o di automatizzare il lavoro di voci fuori campo, ma di aprire prospettive completamente nuove. Se in futuro, per esempio, le voci sintetiche potessero essere utilizzate per adattare rapidamente i materiali didattici online a diversi tipi di pubblico? “Se si vuole raggiungere”, spiega Patel, “un gruppo di ragazzi delle periferia, non sarebbe fantastico se quella voce suonasse davvero come se provenisse dalla loro comunità?”

(rp)

Una nuova ondata di startup utilizza il deep learning per creare doppiatori sintetici di qualità per assistenti digitali, personaggi di videogiochi e video aziendali.

Karen Hao

Articoli correlati

Pubblica la tua tesi di laurea