Il nuovo GPT-4o di OpenAI consente di interagire con voce o video nello stesso modello

Il nuovo “omnimodello” gratuito dell’azienda sembra una versione potenziata di assistenti come Siri o Alexa.

OpenAI ha appena presentato GPT-4o, un nuovo tipo di modello di intelligenza artificiale con cui è possibile comunicare in tempo reale tramite conversazioni vocali dal vivo, flussi video dal telefono e messaggi. Secondo l’azienda, il modello sarà lanciato nelle prossime settimane e sarà gratuito per tutti gli utenti sia attraverso l’app GPT sia attraverso l’interfaccia web. Gli utenti che si abbonano ai livelli a pagamento di OpenAI, che partono da 20 dollari al mese, potranno fare più richieste.

Mira Murati, CTO di OpenAI, ha condotto la dimostrazione dal vivo della nuova versione un giorno prima che Google sveli i propri progressi nel campo dell’intelligenza artificiale durante la conferenza I/O di martedì 14 maggio.

GPT-4 offriva funzionalità simili, dando agli utenti più modi di interagire con le offerte di IA di OpenAI. Tuttavia, le ha separate in modelli distinti, con conseguenti tempi di risposta più lunghi e presumibilmente costi di calcolo più elevati. GPT-4o ha ora unito queste funzionalità in un unico modello, che Murati ha definito “omnimodello”. Ciò significa risposte più rapide e transizioni più fluide tra le attività.

Il risultato, secondo la dimostrazione dell’azienda, è un assistente conversazionale molto simile a Siri o Alexa, ma in grado di rispondere a richieste molto più complesse.

“Stiamo guardando al futuro dell’interazione tra noi e le macchine”, ha detto Murati a proposito della dimostrazione. “Pensiamo che GPT-4o stia davvero spostando il paradigma verso il futuro della collaborazione, dove questa interazione diventa molto più naturale”.

Barret Zoph e Mark Chen, entrambi ricercatori di OpenAI, hanno illustrato una serie di applicazioni del nuovo modello. La cosa più impressionante è stata la sua capacità di conversare dal vivo. È possibile interrompere il modello durante le sue risposte e lui si ferma, ascolta e aggiusta la rotta. OpenAI ha mostrato anche la capacità di cambiare il tono del modello. Chen ha chiesto al modello di leggere una favola della buonanotte “sui robot e sull’amore”, intervenendo rapidamente per chiedere una voce più drammatica. Il modello è diventato progressivamente più teatrale, finché Murati non gli ha chiesto di passare rapidamente a una voce robotica convincente (cosa che ha fatto in modo eccellente). Sebbene durante la conversazione ci siano state prevedibilmente alcune brevi pause mentre il modello ragionava su cosa dire dopo, si è trattato di una conversazione AI dal ritmo straordinariamente naturale.

Il modello può ragionare su problemi visivi anche in tempo reale. Utilizzando il suo telefono, Zoph si è filmato mentre scriveva un’equazione algebrica (3x + 1 = 4) su un foglio di carta, facendosi seguire da GPT-4o. Gli ha chiesto di non fornire risposte, ma di guidarlo come farebbe un insegnante.

“Il primo passo è quello di ottenere tutti i termini con x su un lato”, disse il modello in tono amichevole. “Allora, cosa pensi che dovremmo fare con quel più uno?”.

GPT-4o memorizzerà i record delle interazioni degli utenti con esso, il che significa che il modello “ora ha un senso di continuità in tutte le vostre conversazioni”, secondo Murati. Altri punti di forza sono la traduzione in tempo reale, la possibilità di cercare tra le conversazioni con il modello e la possibilità di cercare informazioni in tempo reale.

Come è nella natura di una demo dal vivo, ci sono stati intoppi e problemi. La voce di GPT-4o poteva intervenire in modo imbarazzante durante la conversazione. Sembrava che commentasse l’abbigliamento di uno dei presentatori anche se non gli era stato chiesto. Ma si è ripreso bene quando i dimostratori hanno detto al modello che aveva sbagliato. Sembra in grado di rispondere in modo rapido e utile attraverso diversi mezzi di comunicazione che altri modelli non hanno ancora fuso in modo altrettanto efficace.

In precedenza, molte delle funzioni più potenti di OpenAI, come il ragionamento attraverso immagini e video, erano dietro un paywall. GPT-4o segna la prima apertura al grande pubblico, anche se non è ancora chiaro quante interazioni si potranno avere con il modello prima di essere addebitati. OpenAI afferma che gli abbonati a pagamento “continueranno ad avere limiti di capacità fino a cinque volte superiori a quelli dei nostri utenti gratuiti”.

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

PsiQuantum intende costruire il più grande computer quantistico degli Stati Uniti

L’IA di Google DeepMind può ora risolvere complessi problemi matematici

L’IA addestrata sui rifiuti dell’IA produce rifiuti dell’IA.

Perché le aziende cinesi puntano sull’IA open-source

Il nuovo GPT-4o di OpenAI consente di interagire con voce o video nello stesso modello

Il nuovo “omnimodello” gratuito dell’azienda sembra una versione potenziata di assistenti come Siri o Alexa.

Social

Il nuovo GPT-4o di OpenAI consente di interagire con voce o video nello stesso modello

Il nuovo “omnimodello” gratuito dell’azienda sembra una versione potenziata di assistenti come Siri o Alexa.

Related Posts