Skip to main content
STEPHANIE ARNETT/MITTR | EYEEM

I nostri redattori analizzano le quattro tendenze da tenere d’occhio quest’anno.

L’anno scorso, in questo periodo, abbiamo fatto qualcosa di azzardato. In un settore in cui nulla si ferma, abbiamo provato a prevedere il futuro.

Come siamo andati? Le nostre quattro grandi scommesse per il 2023 erano che la prossima grande novità nel campo dei chatbot sarebbe stata multimodale (verifica: i modelli linguistici di grandi dimensioni più potenti in circolazione, GPT-4 di OpenAI e Gemini di Google DeepMind, funzionano con testo, immagini e audio); che i responsabili politici avrebbero elaborato nuove e severe normative (verifica: il provvedimento di Biden è arrivato a ottobre e l’AI Act dell’Unione Europea è stato approvato a dicembre); che le Big Tech avrebbero sentito la pressione delle startup open-source (ragione a metà: il boom dell’open-source continua, ma le aziende di AI come OpenAI e Google DeepMind hanno ancora rubato la scena); e che l’AI avrebbe cambiato definitivamente le big pharma (troppo presto per dirlo: la rivoluzione dell’AI nella scoperta dei farmaci è ancora in pieno svolgimento, ma i primi farmaci sviluppati con l’AI sono ancora lontani dal mercato).

Ora lo stiamo facendo di nuovo.

Abbiamo deciso di ignorare l’ovvio. Sappiamo che i modelli linguistici di grandi dimensioni continueranno a dominare. Le autorità di regolamentazione diventeranno più coraggiose. I problemi dell’IA, dai pregiudizi ai diritti d’autore, al doomerismo, saranno all’ordine del giorno per i ricercatori, le autorità di regolamentazione e il pubblico, non solo nel 2024 ma anche negli anni a venire (per saperne di più sulle nostre sei grandi domande sull’IA generativa, leggi qui).

Abbiamo invece scelto alcune tendenze più specifiche. Ecco a cosa prestare attenzione nel 2024 (tornate l’anno prossimo e verificate come siamo andati).

1
Chatbot personalizzati

Ottenete un chatbot! Anche tu avrai un chatbot! Nel 2024, le aziende tecnologiche che hanno investito molto nell’IA generativa saranno costrette a dimostrare che possono guadagnare con i loro prodotti. A tal fine, i giganti dell’IA Google e OpenAI stanno puntando molto sulle piccole dimensioni: entrambi stanno sviluppando piattaforme di facile utilizzo che consentono alle persone di personalizzare potenti modelli linguistici e di creare i propri mini chatbot che rispondono alle loro esigenze specifiche, senza bisogno di competenze di programmazione. Entrambi hanno lanciato strumenti basati sul web che consentono a chiunque di diventare uno sviluppatore di app di IA generativa.

Nel 2024, l’IA generativa potrebbe diventare utile per le persone normali, non necessariamente tecnologi, e vedremo sempre più persone armeggiare con un milione di piccoli modelli di IA. I modelli di IA più avanzati, come GPT-4 e Gemini, sono multimodali, cioè in grado di elaborare non solo testo, ma anche immagini e persino video. Questa nuova capacità potrebbe sbloccare un gran numero di nuove applicazioni. Ad esempio, un agente immobiliare può caricare il testo di annunci precedenti, mettere a punto un potente modello per generare un testo simile con un semplice clic, caricare video e foto di nuovi annunci e chiedere semplicemente all’IA personalizzata di generare una descrizione dell’immobile.

Ma naturalmente il successo di questo piano dipende dal fatto che questi modelli funzionino in modo affidabile. I modelli linguistici spesso inventano qualcosa e i modelli generativi sono pieni di pregiudizi. Sono anche facili da hackerare, soprattutto se possono navigare in rete. Le aziende tecnologiche non hanno risolto nessuno di questi problemi. Quando la novità sarà svanita, dovranno offrire ai loro clienti dei modi per affrontare questi problemi.

Melissa Heikkilä

STEPHANIE ARNETT/MITTR | ENVATO

2
La seconda ondata dell’IA generativa sarà il video

È sorprendente la velocità con cui il fantastico diventa familiare. I primi modelli generativi per produrre immagini fotorealistiche sono esplosi nel 2022 e sono presto diventati di uso comune. Strumenti come DALL-E di OpenAI, Stable Diffusion di Stability AI e Firefly di Adobe hanno inondato Internet di immagini sbalorditive, dal Papa in Balenciaga ai premi d’arte. Ma non è tutto rose e fiori: per ogni carlino che sventola i pompon, c’è un altro pezzo di arte fantasy contraffatta o di stereotipi sessuali sessisti.

La nuova frontiera è il text-to-video. Aspettatevi che prenda tutto ciò che di buono, cattivo o brutto c’era nel text-to-image e lo ingrandisca.

Un anno fa abbiamo avuto un primo assaggio di ciò che i modelli generativi potevano fare quando sono stati addestrati a ricucire più immagini fisse in clip di pochi secondi. I risultati erano distorti e a scatti. Ma la tecnologia è rapidamente migliorata.

Runway, una startup che produce modelli video generativi (e la società che ha co-creato Stable Diffusion), rilascia nuove versioni dei suoi strumenti ogni pochi mesi. Il suo ultimo modello, chiamato Gen-2, genera ancora video di pochi secondi, ma la qualità è sorprendente. Le clip migliori non sono molto lontane da quelle che potrebbe produrre la Pixar.

Runway ha organizzato un festival cinematografico annuale sull‘intelligenza artificiale che presenta film sperimentali realizzati con una serie di strumenti di intelligenza artificiale. Il festival di quest’anno prevede un montepremi di 60.000 dollari e i 10 film migliori saranno proiettati a New York e Los Angeles.

Non sorprende che gli studios più importanti ne stiano prendendo atto. I giganti del cinema, tra cui Paramount e Disney, stanno esplorando l’uso dell’intelligenza artificiale generativa in tutta la loro pipeline di produzione. La tecnologia viene utilizzata per sincronizzare le performance degli attori con molteplici sovraincisioni in lingua straniera. E sta reinventando ciò che è possibile fare con gli effetti speciali. Nel 2023, Indiana Jones e il Quadrante del Destino sarà interpretato da un deepfake di Harrison Ford invecchiato. Questo è solo l’inizio. 

Anche lontano dal grande schermo, la tecnologia deepfake per scopi di marketing o formazione sta prendendo piede. Ad esempio, l’azienda britannica Synthesia produce strumenti in grado di trasformare un’unica performance di un attore in un flusso infinito di avatar deepfake, che recitano qualsiasi copione venga loro fornito premendo un pulsante. Secondo l’azienda, la sua tecnologia è attualmente utilizzata dal 44% delle aziende Fortune 100.

La capacità di fare così tanto con così poco solleva seri interrogativi per gli attori. Le preoccupazioni sull’uso e l’abuso dell’IA da parte degli studios sono state al centro degli scioperi della SAG-AFTRA dello scorso anno. Ma il vero impatto della tecnologia sta diventando solo ora evidente. “Il mestiere del regista sta cambiando radicalmente”, afferma Souki Mehdaoui, regista indipendente e cofondatore di Bell & Whistle, una società di consulenza specializzata in tecnologie creative.

-Will Douglas Heaven

3
La disinformazione elettorale generata dall’intelligenza artificiale sarà ovunque

Se le recenti elezioni sono un esempio, la disinformazione elettorale generata dall’intelligenza artificiale e i deepfakes saranno un problema enorme quando un numero record di persone si recherà alle urne nel 2024. Stiamo già vedendo i politici armarsi di questi strumenti. In Argentina, due candidati alla presidenza hanno creato immagini e video generati dall’intelligenza artificiale dei loro avversari per attaccarli. In Slovacchia, durante le elezioni si sono diffusi a macchia d’olio i deepfake del leader di un partito liberale ed europeista che minacciava di aumentare il prezzo della birra e faceva battute sulla pornografia infantile. E negli Stati Uniti, Donald Trump ha fatto il tifo per un gruppo che utilizza l’intelligenza artificiale per generare meme con troppe frasi razziste e sessiste.

Anche se è difficile dire quanto questi esempi abbiano influenzato l’esito delle elezioni, la loro proliferazione è una tendenza preoccupante. Diventerà più difficile che mai riconoscere ciò che è reale online. In un clima politico già infiammato e polarizzato, questo potrebbe avere gravi conseguenze.

Solo pochi anni fa la creazione di un deepfake avrebbe richiesto competenze tecniche avanzate, ma l’IA generativa l’ha resa stupidamente facile e accessibile, e i risultati sembrano sempre più realistici. Anche le fonti affidabili possono essere ingannate da contenuti generati dall’IA. Ad esempio, le immagini generate dall’IA e inviate dagli utenti, che sembrano raffigurare la crisi tra Israele e Gaza, hanno invaso i mercati di immagini stock come quello di Adobe.

Il prossimo anno sarà cruciale per chi lotta contro la proliferazione di tali contenuti. Le tecniche per tracciare e mitigare tali contenuti sono ancora agli albori dello sviluppo. I watermark, come il SynthID di Google DeepMind, sono ancora per lo più volontari e non completamente infallibili. E le piattaforme di social media sono notoriamente lente nell’eliminare la disinformazione. Preparatevi a un massiccio esperimento in tempo reale per stroncare le fake news generate dall’intelligenza artificiale.

-Melissa Heikkilä

STEPHANIE ARNETT/MITTR | ISTOCK, ENVATO

4
Robot multitasking

Ispirandosi ad alcune delle tecniche alla base dell’attuale boom dell’IA generativa, i robotisti stanno iniziando a costruire robot più generici, in grado di svolgere una gamma più ampia di compiti.

Negli ultimi anni si è passati dall’uso di modelli multipli di piccole dimensioni, ciascuno addestrato a svolgere compiti diversi – identificare immagini, disegnarle, scrivere didascalie – a modelli singoli e monolitici addestrati a fare tutte queste cose e altre ancora. Mostrando al GPT-3 di OpenAI alcuni esempi aggiuntivi (il cosiddetto fine-tuning), i ricercatori possono addestrarlo a risolvere problemi di codifica, a scrivere sceneggiature di film, a superare esami di biologia al liceo e così via. I modelli multimodali, come GPT-4 e Gemini di Google DeepMind, possono risolvere compiti visivi e linguistici.

Lo stesso approccio può funzionare per i robot, per cui non sarebbe necessario addestrarne uno a girare i pancake e un altro ad aprire le porte: un modello unico per tutti potrebbe dare ai robot la capacità di svolgere più compiti. Nel 2023 sono emersi diversi esempi di lavoro in questo settore.

A giugno, DeepMind ha rilasciato Robocat (un aggiornamento di Gato dell’anno scorso), che genera i propri dati da prove ed errori per imparare a controllare molti bracci robotici diversi (invece di un braccio specifico, come è più tipico).

In ottobre, l’azienda ha presentato un altro modello generico per i robot, chiamato RT-X, e un nuovo grande set di dati di addestramento generico, in collaborazione con 33 laboratori universitari. Altri gruppi di ricerca di alto livello, come RAIL (Robotic Artificial Intelligence and Learning) dell’Università della California, Berkeley, stanno studiando tecnologie simili.

Il problema è la mancanza di dati. L’intelligenza artificiale generativa si basa su un insieme di dati di testo e immagini di dimensioni pari a quelle di Internet. In confronto, i robot hanno pochissime fonti di dati utili per imparare a svolgere molte delle attività industriali o domestiche che desideriamo.

Lerrel Pinto della New York University è a capo di un team che si occupa di questo problema. Lui e i suoi colleghi stanno sviluppando tecniche che consentono ai robot di imparare per tentativi ed errori, creando man mano i propri dati di addestramento. In un progetto ancora più semplice, Pinto ha reclutato dei volontari per raccogliere dati video intorno alle loro case usando la fotocamera di un iPhone montata su un raccoglitore di rifiuti. Negli ultimi due anni anche le grandi aziende hanno iniziato a rilasciare grandi serie di dati per l’addestramento dei robot, come Ego4D di Meta.

Questo approccio si sta già rivelando promettente nelle auto senza conducente. Startup come Wayve, Waabo e Ghost sono pioniere di una nuova ondata di intelligenza artificiale per la guida autonoma che utilizza un unico modello di grandi dimensioni per controllare un veicolo, anziché più modelli più piccoli per controllare compiti di guida specifici. Questo ha permesso alle piccole aziende di mettersi al passo con giganti come Cruise e Waymo. Waymo sta testando le sue auto senza conducente sulle strade strette e trafficate di Londra. I robot di tutto il mondo sono destinati a ricevere una spinta simile.

-Will Douglas Heaven