L’azienda afferma che la versione aggiornata risponde alle emozioni e al tono di voce dell’utente e consente di interromperlo a metà frase.
OpenAI sta ampliando l’accesso all’Advanced Voice Mode, una funzione di ChatGPT che consente di parlare in modo più naturale con il modello AI. Permette di interrompere le sue risposte a metà frase ed è in grado di percepire e interpretare le vostre emozioni dal vostro tono di voce e di adattare le sue risposte di conseguenza.
Queste funzioni sono state anticipate a maggio, quando OpenAI ha presentato GPT-4o, ma non sono state rilasciate fino a luglio, e poi solo a un gruppo di invitati. (Almeno inizialmente, sembra che ci siano stati problemi di sicurezza con il modello; OpenAI ha dato a diversi giornalisti di Wired l’accesso alla modalità vocale a maggio, ma la rivista ha riferito che l’azienda “l’ha ritirata la mattina dopo, citando problemi di sicurezza”).
Gli utenti che hanno potuto provarlo hanno ampiamente descritto il modello come un assistente vocale incredibilmente veloce, dinamico e realistico, il che ha reso la sua limitata disponibilità particolarmente frustrante per alcuni altri utenti di OpenAI.
Oggi è la prima volta che OpenAI ha promesso di portare la nuova modalità vocale a una vasta gamma di utenti. Ecco cosa c’è da sapere.
Cosa può fare?
Sebbene ChatGPT offra attualmente una modalità vocale standard per gli utenti a pagamento, le sue interazioni possono risultare complicate. Nell’app mobile, per esempio, non è possibile interrompere le risposte spesso prolisse, ma solo con un tocco sullo schermo. La nuova versione risolve questo problema e promette anche di modificare le sue risposte in base alle emozioni percepite dalla voce dell’utente. Come per le altre versioni di ChatGPT, gli utenti possono personalizzare la modalità vocale chiedendo al modello di ricordare fatti che li riguardano. La nuova modalità ha anche migliorato la pronuncia delle parole in lingue diverse dall’inglese.
L’investitore in AI Allie Miller ha pubblicato una demo dello strumento in agosto, che ha evidenziato molti degli stessi punti di forza dei video di OpenAI: il modello è veloce e abile nel cambiare accento, tono e contenuto in base alle esigenze dell’utente.
L’aggiornamento aggiunge anche nuove voci. Poco dopo il lancio di GPT-4o, OpenAI è stato criticato per la somiglianza tra la voce femminile dei suoi video dimostrativi, chiamata Sky, e quella di Scarlett Johansson, che interpretava un’IA innamorata nel film Her. OpenAI ha quindi rimosso la voce.
Ora ha lanciato cinque nuove voci, chiamate Arbor, Maple, Sol, Spruce e Vale, che saranno disponibili sia nella modalità standard che in quella avanzata. Il MIT Technology Review non le ha ancora ascoltate, ma OpenAI afferma che sono state realizzate utilizzando doppiatori professionisti di tutto il mondo. “Abbiamo intervistato decine di attori per trovare quelli con le qualità di voci con cui pensiamo che le persone si divertiranno a parlare per ore: calde, avvicinabili, curiose, con una struttura e un tono ricchi”, spiega un portavoce dell’azienda.
Chi può accedervi e quando?
Per ora, OpenAI sta distribuendo l’accesso alla modalità vocale avanzata agli utenti Plus, che pagano 20 dollari al mese per una versione premium, e agli utenti Team, che pagano 30 dollari al mese e hanno limiti di messaggi più elevati. Il prossimo gruppo a ricevere l’accesso sarà quello degli utenti dei livelli Enterprise ed Edu. La tempistica esatta, tuttavia, è vaga; un portavoce di OpenAI ha dichiarato che l’azienda “distribuirà gradualmente l’accesso a tutti gli utenti Plus e Team e lo distribuirà ai livelli Enterprise ed Edu a partire dalla prossima settimana”. L’azienda non si è impegnata a fissare una scadenza precisa per quando tutti gli utenti di queste categorie avranno accesso. Un messaggio nell’app ChatGPT indica che tutti gli utenti Plus avranno accesso entro “la fine dell’autunno”.
Ci sono limitazioni geografiche. La nuova funzione non è ancora disponibile nell’UE, nel Regno Unito, in Svizzera, Islanda, Norvegia e Liechtenstein.
Non è previsto il rilascio immediato della modalità vocale avanzata agli utenti gratuiti. (La modalità standard rimane disponibile per tutti gli utenti a pagamento).
Quali misure sono state adottate per garantire la sicurezza?
Come l’azienda ha sottolineato al momento del rilascio iniziale, a luglio, e ha ribadito questa settimana, l’Advanced Voice Mode è stato sottoposto a test di sicurezza da parte di esperti esterni “che parlano complessivamente 45 lingue diverse e rappresentano 29 aree geografiche diverse”. La scheda di sistema GPT-4o illustra in dettaglio come il modello sottostante gestisce problemi quali la generazione di discorsi violenti o erotici, l’imitazione di voci senza il loro consenso o la generazione di contenuti protetti da copyright.
Tuttavia, i modelli di OpenAI non sono open-source. Rispetto a questi modelli, che sono più trasparenti riguardo ai dati di addestramento e ai “pesi del modello” che regolano il modo in cui l’IA produce le risposte, i modelli closed-source di OpenAI sono più difficili da valutare per i ricercatori indipendenti dal punto di vista della sicurezza, dei pregiudizi e dei danni.