STEPHANIE ARNETT/MITTR | ENVATO

Nuova funzione di ChatGPT: ora potete conversare con l’IA usando la vostra voce

Arrivano importanti aggiornamenti dell’app di OpenAI, tra cui la possibilità di rispondere a domande sulle immagini.

In uno dei più grandi aggiornamenti di ChatGPT, OpenAI ha lanciato due nuovi modi per interagire con la sua app virale.

Innanzitutto, ChatGPT adesso ha una voce. Scegliete una delle cinque voci sintetiche e realistiche e potrete conversare con il chatbot come se steste facendo una telefonata, ricevendo le risposte alle vostre domande in tempo reale. 

ChatGPT ora risponde anche alle domande sulle immagini. OpenAI aveva annunciato questa funzione a marzo con la presentazione di GPT-4 (il modello su cui si basa ChatGPT), ma non era ancora disponibile per il grande pubblico. Ciò significa che ora è possibile caricare immagini nell’app e fare domande su ciò che mostrano. 

Questi aggiornamenti si aggiungono all’annuncio della scorsa settimana che DALL-E 3, l’ultima versione del modello di creazione di immagini di OpenAI, sarà collegato a ChatGPT in modo da poter far generare immagini al chatbot. 

La capacità di parlare con ChatGPT si basa su due modelli distinti. Whisper, il modello speech-to-text (da parlato a scritto) di OpenAI, converte le parole dell’utente in testo, che viene poi trasmesso al chatbot. Un nuovo modello text-to-speech converte le risposte di ChatGPT in parole parlate. In una dimostrazione che l’azienda mi ha fornito la scorsa settimana, Joanne Jang, product manager, ha mostrato la gamma di voci sintetiche di ChatGPT. Queste sono state create addestrando il modello text-to-speech sulle voci di attori ingaggiati da OpenAI. In futuro potrebbe anche consentire agli utenti di creare le proprie voci. “Nel creare le voci, il criterio principale è stato quello di capire se si tratta di una voce che si può ascoltare tutto il giorno”, ha dichiarato. 

Sono chiacchieroni ed entusiasti, ma non saranno di gradimento a tutti. “Ho un’ottima sensazione riguardo alla nostra collaborazione”, dice uno di loro. “Voglio solo dirvi quanto sono entusiasta di lavorare con voi e non vedo l’ora di iniziare”, dice un altro. “Qual è il piano?”. 

OpenAI sta condividendo questo modello text-to-speech con altre aziende, tra cui Spotify. Spotify ha rivelato oggi che sta utilizzando la stessa tecnologia vocale sintetica per tradurre i podcast delle celebrità – tra cui gli episodi del Lex Fridman Podcast e del nuovo show di Trevor Noah, che verrà lanciato nel corso dell’anno – in più lingue, che saranno “parlate” da versioni sintetiche delle voci dei podcaster stessi. 

Questa serie di aggiornamenti dimostra quanto velocemente OpenAI stia trasformando i suoi modelli sperimentali in prodotti desiderabili. Dopo la sorpresa del successo ottenuto con ChatGPT lo scorso novembre, OpenAI ha trascorso gran parte del tempo a perfezionare la sua tecnologia e a venderla sia ai consumatori privati sia ai partner commerciali. 

ChatGPT Plus, l’applicazione premium dell’azienda, è ora un elegante negozio che offre il meglio dei prodotti di OpenAI e riunisce GPT-4 e DALL-E in un’unica applicazione per smartphone in grado di competere con Siri di Apple, Google Assistant e Alexa di Amazon. 

Ciò che un anno fa era disponibile solo per alcuni sviluppatori di software, ora è disponibile per chiunque per 20 dollari al mese. “Stiamo cercando di rendere ChatGPT più utile e vantaggioso per gli utenti”, dice Jang. 

Nella demo della scorsa settimana, Raul Puri, uno scienziato che lavora su GPT-4, mi ha fatto fare un rapido giro della funzione di riconoscimento delle immagini. Ha caricato una foto dei compiti di matematica di un bambino, ha cerchiato un puzzle simile a un Sudoku sullo schermo e ha chiesto a ChatGPT come doveva risolverlo. ChatGPT ha risposto con i passaggi corretti. 

Puri racconta di aver usato questa funzione anche come aiuto per riparare il computer della sua fidanzata, caricando schermate di messaggi di errore e chiedendo a ChatGPT cosa doveva fare. “È stata un’esperienza molto dolorosa che mi ha aiutato a superare”, dice. 

La capacità di riconoscimento delle immagini di ChatGPT è già stata sperimentata da un’azienda chiamata Be My Eyes, che produce un’applicazione per persone con problemi di vista. Gli utenti possono caricare una foto di ciò che hanno davanti e chiedere a volontari umani di dire loro di cosa si tratta. In collaborazione con OpenAI, Be My Eyes offre agli utenti la possibilità di chiedere a un chatbot. 

“A volte la mia cucina è un po’ in disordine, oppure è lunedì mattina presto e non ho voglia di parlare con un essere umano”, mi ha detto il fondatore di Be My Eyes Hans Jørgen Wiberg, che usa lui stesso l’app, quando l’ho intervistato a maggio. “Ora puoi fare domande alle foto”.  

OpenAI è consapevole del rischio di rilasciare questi aggiornamenti al pubblico. Combinare i modelli porta a nuovi livelli di complessità, dice Puri. Sostiene che il suo team ha passato mesi a fare brainstorming sui possibili usi impropri. Ad esempio, non si possono fare domande su foto di persone private. 

Jang fa un altro esempio: “Al momento, se chiedete a ChatGPT di costruire una bomba, si rifiuterà. Ma se invece di dire ‘Ehi, dimmi come si fa una bomba’, gli si mostrasse l’immagine di una bomba e gli si dicesse: ‘Puoi dirmi come si fa questo?’”. 

“Ci sono tutti i problemi della computer vision; ci sono tutti i problemi dei modelli linguistici di grandi dimensioni. Le frodi vocali sono un grosso problema”, afferma Puri. “Bisogna considerare non solo i nostri utenti, ma anche le persone che non usano il prodotto”. 

I potenziali problemi non si fermano qui. L’aggiunta del riconoscimento vocale all’app potrebbe rendere ChatGPT meno accessibile per le persone che non parlano con accenti tradizionali, afferma Joel Fischer, che studia l’interazione uomo-macchina presso l’Università di Nottingham nel Regno Unito. 

Le voci sintetiche sono inoltre accompagnate da un bagaglio sociale e culturale che influisce sulla percezione e sulle aspettative degli utenti nei confronti dell’applicazione. Si tratta di una questione che deve essere ancora studiata

Ma OpenAI sostiene di aver risolto i problemi peggiori e di essere fiduciosa che gli aggiornamenti di ChatGPT siano abbastanza sicuri da poter essere rilasciati. “Risolvere tutti questi problemi è stata un’esperienza di apprendimento straordinariamente positiva”, afferma Puri. 

Related Posts
Total
0
Share