Il chatbot a comando vocale sarà disponibile per un piccolo gruppo di persone oggi e per tutti gli utenti di ChatGPT Plus entro l’autunno.
OpenAI sta lanciando un chatbot AI avanzato con cui è possibile parlare. È disponibile da oggi, almeno per alcuni.
Il nuovo chatbot rappresenta la spinta di OpenAI verso una nuova generazione di assistenti vocali basati sull’IA, sulla falsariga di Siri e Alexa, ma con molte più capacità per consentire conversazioni più naturali e fluenti. Si tratta di un passo avanti nella marcia verso agenti AI più capaci. Il nuovo bot vocale ChatGPT è in grado di riconoscere i diversi toni di voce, di rispondere alle interruzioni e di rispondere alle domande in tempo reale. È stato inoltre addestrato a suonare più naturale e a utilizzare le voci per trasmettere un’ampia gamma di emozioni diverse.
La modalità vocale è alimentata dal nuovo modello GPT-4o di OpenAI, che combina voce, testo e capacità visive. Per raccogliere feedback, l’azienda sta inizialmente lanciando il chatbot a un “piccolo gruppo di utenti” che pagano per ChatGPT Plus, ma afferma che renderà il bot disponibile a tutti gli abbonati a ChatGPT Plus in autunno. L’abbonamento a ChatGPT Plus costa 20 dollari al mese. OpenAI afferma che informerà i clienti che fanno parte della prima ondata di lancio nell’app ChatGPT e fornirà istruzioni su come utilizzare il nuovo modello.
La nuova funzione vocale, annunciata a maggio, viene lanciata con un mese di ritardo rispetto a quanto inizialmente previsto, perché l’azienda ha dichiarato di aver bisogno di più tempo per migliorare le funzioni di sicurezza, come la capacità del modello di rilevare e rifiutare contenuti indesiderati. L’azienda ha inoltre dichiarato di stare preparando la propria infrastruttura per offrire risposte in tempo reale a milioni di utenti.
OpenAI afferma di aver testato le capacità vocali del modello con più di 100 tester esterni, incaricati di verificare la presenza di difetti nel modello. Secondo OpenAI, i tester parlavano un totale di 45 lingue e rappresentavano 29 Paesi.
L’azienda aggiunge di aver messo in atto diversi meccanismi di sicurezza. Per esempio, per evitare che il modello venga utilizzato per creare audio deepfakes, ha creato quattro voci preimpostate in collaborazione con i doppiatori. GPT-4o non impersonerà o genererà le voci di altre persone.
Quando OpenAI ha presentato per la prima volta GPT-4o, l’azienda ha dovuto affrontare una polemica per l’uso di una voce chiamata “Sky”, che assomigliava molto all’attrice Scarlett Johansson. La Johansson ha rilasciato una dichiarazione in cui afferma che l’azienda le ha chiesto il permesso di utilizzare la sua voce per il modello, ma ha rifiutato. La Johansson ha dichiarato di essere rimasta scioccata nel sentire una voce “spaventosamente simile” alla sua nella demo del modello. OpenAI ha negato che la voce sia quella della Johansson, ma ha sospeso l’uso di Sky.
L’azienda è anche coinvolta in diverse cause legali per presunte violazioni del copyright. OpenAI afferma di aver adottato dei filtri che riconoscono e bloccano le richieste di generare musica o altro audio protetto da copyright. OpenAI afferma inoltre di aver applicato al GPT-4o gli stessi meccanismi di sicurezza utilizzati nel suo modello testuale, per evitare che infranga le leggi e generi contenuti dannosi.
OpenAI prevede di includere funzioni più avanzate, come la condivisione di video e schermi, che potrebbero rendere l’assistente più utile. Nella dimostrazione di maggio, i dipendenti hanno puntato la fotocamera del telefono su un foglio di carta e hanno chiesto al modello di intelligenza artificiale di aiutarli a risolvere equazioni matematiche. Hanno anche condiviso lo schermo del loro computer e hanno chiesto al modello di aiutarli a risolvere problemi di codifica. OpenAI afferma che queste funzioni non saranno disponibili ora, ma in una data successiva non specificata.