La prossima grande novità sono gli strumenti di intelligenza artificiale in grado di svolgere compiti più complessi. Ecco come funzioneranno.
Quando ChatGPT è stato rilasciato, tutti gli addetti ai lavori parlavano della nuova generazione di assistenti AI. Ma nell’ultimo anno l’entusiasmo si è rivolto a un nuovo obiettivo: gli agenti di IA.
Gli agenti sono stati protagonisti della conferenza annuale I/O di Google a maggio, quando l’azienda ha presentato il suo nuovo agente AI chiamato Astra, che consente agli utenti di interagire con esso utilizzando audio e video. Anche il nuovo modello GPT-4o di OpenAI è stato definito un agente AI.
E non si tratta solo di illusione, anche se c’è sicuramente anche quella. Le aziende tecnologiche stanno investendo ingenti somme nella creazione di agenti di intelligenza artificiale e i loro sforzi di ricerca potrebbero inaugurare il tipo di intelligenza artificiale utile che abbiamo sognato per decenni. Molti esperti, tra cui Sam Altman, affermano che si tratta della prossima grande novità.
Ma cosa sono? E come possiamo usarli?
Come vengono definiti?
La ricerca sugli agenti di intelligenza artificiale è ancora agli inizi e il settore non ha ancora una definizione definitiva. Tuttavia, si tratta semplicemente di modelli e algoritmi di IA in grado di prendere decisioni autonome in un mondo dinamico, spiega Jim Fan, ricercatore senior di Nvidia che guida l’iniziativa dell’azienda sugli agenti di IA.
La grande visione degli agenti AI è un sistema in grado di eseguire una vasta gamma di compiti, proprio come un assistente umano. In futuro, potrebbe aiutarvi a prenotare le vostre vacanze, ma si ricorderà anche se preferite gli hotel di lusso, quindi vi suggerirà solo gli hotel a quattro stelle o più e prenoterà quello che scegliete tra le varie opzioni che vi offre. Vi suggerirà anche i voli più adatti al vostro calendario e pianificherà l’itinerario del vostro viaggio in base alle vostre preferenze. Potrebbe stilare un elenco di cose da mettere in valigia in base al piano e alle previsioni del tempo. Potrebbe anche inviare l’itinerario a tutti gli amici che sanno che vivono nella vostra destinazione e invitarli a seguirvi. Sul posto di lavoro, potrebbe analizzare l’elenco delle cose da fare ed eseguirle, ad esempio inviando inviti al calendario, promemoria o e-mail.
Una visione degli agenti è quella di essere multimodali, cioè in grado di elaborare linguaggio, audio e video. Ad esempio, nella demo Astra di Google, gli utenti possono puntare la fotocamera di uno smartphone e porre domande all’agente. L’agente potrebbe rispondere a input testuali, audio e video.
Secondo David Barber, direttore del Centro per l’Intelligenza Artificiale dell’University College di Londra, questi agenti potrebbero anche rendere più fluidi i processi per le aziende e le organizzazioni pubbliche. Ad esempio, un agente AI potrebbe essere in grado di funzionare come un bot più sofisticato per il servizio clienti. L’attuale generazione di assistenti basati su modelli linguistici può solo generare la prossima parola probabile in una frase. Ma un agente di intelligenza artificiale avrebbe la capacità di agire autonomamente su comandi in linguaggio naturale e di elaborare compiti di assistenza clienti senza supervisione. Ad esempio, l’agente sarebbe in grado di analizzare le e-mail di reclamo dei clienti e quindi di controllare il numero di riferimento del cliente, di accedere a database come i sistemi di gestione delle relazioni con i clienti e di consegna per verificare la legittimità del reclamo e di elaborarlo in base alle politiche aziendali, afferma Barber.
In generale, secondo Fan, esistono due diverse categorie di agenti: gli agenti software e gli agenti incarnati.
Gli agenti software funzionano su computer o telefoni cellulari e utilizzano applicazioni, come nell’esempio dell’agente di viaggio. “Questi agenti sono molto utili per il lavoro d’ufficio, per l’invio di e-mail o per la creazione di una catena di eventi”.
Gli agenti incarnati sono agenti situati in un mondo 3D, come un videogioco, o in un robot. Questo tipo di agenti potrebbe rendere i videogiochi più coinvolgenti, permettendo alle persone di giocare con personaggi non giocanti controllati dall’intelligenza artificiale. Questo tipo di agenti potrebbe anche aiutare a costruire robot più utili, in grado di aiutarci nelle attività quotidiane a casa, come piegare il bucato e cucinare i pasti.
Fan ha fatto parte di un team che ha costruito un agente AI incarnato chiamato MineDojo nel popolare gioco per computer Minecraft. Utilizzando una vasta quantità di dati raccolti da Internet, l’agente AI di Fan è stato in grado di apprendere nuove abilità e compiti che gli hanno permesso di esplorare liberamente il mondo virtuale in 3D e di completare compiti complessi come circondare i lama con recinzioni o raccogliere la lava in un secchio. I videogiochi sono buoni proxy del mondo reale, perché richiedono agli agenti di comprendere la fisica, il ragionamento e il buon senso.
In un nuovo lavoro, non ancora sottoposto a revisione paritaria, i ricercatori di Princeton affermano che gli agenti di IA tendono ad avere tre diverse caratteristiche. I sistemi di intelligenza artificiale sono considerati “agonici” se sono in grado di perseguire obiettivi difficili senza essere istruiti in ambienti complessi. Si qualificano anche se possono essere istruiti in linguaggio naturale e agire autonomamente senza supervisione. Infine, il termine “agente” può essere applicato anche a sistemi in grado di utilizzare strumenti, come la ricerca sul web o la programmazione, o capaci di pianificare.
Sono una novità?
Il termine “agenti di intelligenza artificiale” esiste da anni e ha significato cose diverse in tempi diversi, afferma Chirag Shah, professore di informatica all’Università di Washington.
Ci sono state due ondate di agenti, dice Fan. L’ondata attuale è dovuta al boom dei modelli linguistici e all’ascesa di sistemi come ChatGPT.
L’ondata precedente risale al 2016, quando Google DeepMind ha presentato AlphaGo, il suo sistema di intelligenza artificiale in grado di giocare – e vincere – al gioco del Go. AlphaGo era in grado di prendere decisioni e pianificare strategie. Questo si basava sull’apprendimento per rinforzo, una tecnica che premia gli algoritmi di IA per i comportamenti desiderabili.
“Ma questi agenti non erano generici”, spiega Oriol Vinyals, vicepresidente della ricerca di Google DeepMind. Erano stati creati per compiti molto specifici – in questo caso, giocare a Go. La nuova generazione di IA basata su modelli di base rende gli agenti più universali, in quanto possono imparare dal mondo con cui gli esseri umani interagiscono.
“Si percepisce molto di più che il modello sta interagendo con il mondo e poi ci restituisce risposte migliori o una migliore assistenza o altro”, dice Vinyals.
Quali sono le limitazioni?
Ci sono ancora molte domande aperte che devono trovare risposta. Kanjun Qiu, CEO e fondatore della startup Imbue, che sta lavorando su agenti in grado di ragionare e codificare, paragona lo stato degli agenti a quello in cui si trovavano le auto a guida autonoma poco più di dieci anni fa. Possono fare delle cose, ma non sono affidabili e non sono ancora veramente autonome. Ad esempio, un agente di codifica può generare codice, ma a volte lo sbaglia e non sa come testare il codice che sta creando, dice Qiu. Quindi gli esseri umani devono ancora essere coinvolti attivamente nel processo. I sistemi di intelligenza artificiale non sono ancora in grado di ragionare completamente, un passo fondamentale per operare in un mondo umano complesso e ambiguo.
“Non siamo neanche lontanamente vicini ad avere un agente che possa automatizzare tutte queste attività al posto nostro”, afferma Fan. I sistemi attuali “hanno le allucinazioni e non sempre seguono attentamente le istruzioni”, dice Fan. “E questo diventa fastidioso”.
Un’altra limitazione è che dopo un po’ di tempo gli agenti di IA perdono traccia di ciò su cui stanno lavorando. I sistemi di IA sono limitati dalle loro finestre di contesto, ovvero dalla quantità di dati che possono prendere in considerazione in un dato momento.
“ChatGPT è in grado di gestire la codifica, ma non è in grado di gestire bene i contenuti di lunga durata. Ma per gli sviluppatori umani, guardiamo un intero repository GitHub con decine, se non centinaia di righe di codice, e non abbiamo problemi a navigarlo”, dice Fan.
Per affrontare questo problema, Google ha aumentato la capacità dei suoi modelli di elaborare i dati, consentendo agli utenti di avere interazioni più lunghe con essi, in cui ricordano di più le interazioni passate. L’azienda ha dichiarato che sta lavorando per rendere le finestre contestuali infinite in futuro.
Per gli agenti incarnati come i robot, le limitazioni sono ancora maggiori. Non ci sono abbastanza dati di addestramento per insegnare loro e i ricercatori stanno appena iniziando a sfruttare la potenza dei modelli di fondazione nella robotica.
In mezzo a tutto questo clamore, vale la pena ricordare che la ricerca sugli agenti di intelligenza artificiale è ancora nelle sue fasi iniziali e probabilmente ci vorranno anni prima di poterne sperimentare il pieno potenziale.
Sembra bello. Posso provare un agente AI adesso?
Più o meno. Probabilmente avrete provato i loro primi prototipi, come ChatGPT e GPT-4 di OpenAI. “Se si interagisce con un software che sembra intelligente, questo è una specie di agente”, dice Qiu.
Al momento i migliori agenti che abbiamo sono sistemi con casi d’uso molto ristretti e specifici, come gli assistenti di codifica, i bot del servizio clienti o i software di automazione dei flussi di lavoro come Zapier. Ma questi sistemi sono ben lontani da un agente AI universale in grado di svolgere compiti complessi.
“Oggi abbiamo questi computer e sono molto potenti, ma dobbiamo gestirli al meglio”, dice Qiu.
I plug-in ChatGPT di OpenAI, che consentono di creare assistenti AI per i browser web, sono stati un tentativo di agenti, dice Qiu. Ma questi sistemi sono ancora goffi, inaffidabili e non in grado di ragionare.
Ciononostante, secondo Qiu, questi sistemi un giorno cambieranno il modo in cui interagiamo con la tecnologia e si tratta di una tendenza a cui le persone devono prestare attenzione.
“Non è come dire: ‘Oh mio Dio, all’improvviso abbiamo l’AGI’… ma più come dire: ‘Oh mio Dio, il mio computer può fare molto di più di quello che faceva cinque anni fa'”, dice.