Skip to main content
Stephanie Arnett/MIT Technology Review | rawpixel, Envato

Le nuove funzioni vocali e video segnalano un cambiamento rispetto ai chatbot basati sul testo.

Chattare con un chatbot AI è ormai un fatto del 2022. Gli ultimi giocattoli AI sfruttano modelli multimodali, in grado di gestire più cose contemporaneamente, come immagini, audio e testo.

Reperto A: NotebookLM di Google. NotebookLM è uno strumento di ricerca che l’azienda ha lanciato con poco clamore un anno fa. Qualche settimana fa, Google ha aggiunto a NotebookLM uno strumento di podcasting AI chiamato Audio Overview, che consente agli utenti di creare podcast su qualsiasi argomento. Se si aggiunge un link, ad esempio, al proprio profilo LinkedIn, i conduttori di podcast IA aumenteranno il vostro ego per nove minuti. La funzione è diventata a sorpresa un successo virale. Ho scritto qui di tutti i modi strani e sorprendenti in cui le persone la usano.

Per darvi un assaggio, ho creato un podcast del numero della nostra rivista per il 125° anniversario. L’AI fa un ottimo lavoro nel selezionare alcuni punti salienti della rivista e nel darvi il succo del loro contenuto. Ascoltate qui sotto.

Anche i contenuti generativi multimodali sono migliorati notevolmente in poco tempo. Nel settembre 2022, mi sono occupato del primo modello di Meta text-to-video, Make-A-Video. Rispetto alla tecnologia odierna, quei video appaiono goffi e sciocchi. Meta ha appena annunciato il suo concorrente di Sora di OpenAI, chiamato Movie Gen. Lo strumento consente agli utenti di utilizzare suggerimenti testuali per creare video e suoni personalizzati, modificare video esistenti e trasformare immagini in video.

Anche il modo in cui interagiamo con i sistemi di intelligenza artificiale sta cambiando, diventando meno dipendente dal testo. La nuova interfaccia Canvas di OpenAI consente agli utenti di collaborare a progetti con ChatGPT. Invece di affidarsi a una finestra di chat tradizionale, che richiede agli utenti di eseguire diversi cicli di richiesta e rigenerazione del testo per ottenere il risultato desiderato, Canvas consente alle persone di selezionare parti di testo o codice da modificare.

Anche la ricerca sta ricevendo un aggiornamento multimodale. Oltre all’inserimento di annunci pubblicitari nelle panoramiche dell’intelligenza artificiale, Google ha introdotto una nuova funzione che consente agli utenti di caricare un video e di utilizzare la voce per effettuare ricerche. In una dimostrazione al Google I/O, l’azienda ha mostrato come sia possibile aprire l’app Google Lens, riprendere un video di pesci che nuotano in un acquario e porre una domanda su di loro. Il modello Gemini di Google effettuerà quindi una ricerca sul web e offrirà una risposta sotto forma di sintesi dell’intelligenza artificiale di Google.

Ciò che unisce queste caratteristiche è un’interfaccia più interattiva e personalizzabile e la possibilità di applicare gli strumenti di IA a molti tipi diversi di materiale sorgente. NotebookLM è stato il primo prodotto di IA da un po’ di tempo a questa parte a suscitare in me meraviglia e piacere, in parte per il modo in cui le voci dell’IA erano diverse, realistiche e inaspettate. Ma il fatto che le panoramiche audio di NotebookLM siano diventate un successo nonostante fossero una funzione secondaria nascosta all’interno di un prodotto più grande dimostra che gli sviluppatori di IA non sanno davvero cosa stanno facendo. È difficile da credere, ma ChatGPT stesso è stato un successo inaspettato per OpenAI.

Siamo a un paio d’anni dal boom multimiliardario dell’IA generativa. Gli enormi investimenti nell’IA hanno contribuito a migliorare rapidamente la qualità dei contenuti ottenuti. Ma non abbiamo ancora visto una killer app e queste nuove applicazioni multimodali sono il risultato dell’immensa pressione a cui sono sottoposte le aziende di IA per fare soldi e ottenere risultati. Le aziende tecnologiche stanno lanciando diversi strumenti di IA alle persone e vedono cosa si attacca.