Immagini intelligenti, la nuova frontiera dell’AI

Dall-E 2, l’ultima AI per la creazione di immagini di OpenAI, è un passaggio essenziale per costruire una forma di intelligenza artificiale generale. Il prodotto è di qualità, ma ora spetta agli utenti migliorarlo

di Will Douglas Heaven

Quando, all’inizio del 2021, OpenAI ha rivelato Dall-E, la sua rete neurale per la creazione di immagini, la capacità simile a quella umana del programma di combinare concetti diversi in modi nuovi ha sorpreso tutti. La serie di immagini che DALL-E ha prodotto su richiesta erano surreali e da cartone animato, come nei casi delle poltrone a forma di avocado e dei ravanelli daikon con i cani al guinzaglio, ma hanno mostrato che l’AI aveva imparato lezioni chiave sul mondo. 

Oggi il laboratorio con sede a San Francisco ha annunciato il successore DALL-E 2, in grado di produrre immagini di gran lunga migliori. Inoltre, è più facile da usare e, a differenza della versione originale, verrà rilasciato al pubblico. DALL-E 2 potrebbe persino ampliare le attuali definizioni di intelligenza artificiale, costringendoci riesaminare alla base quel concetto. “Il salto da DALL-E a DALL-E 2 ricorda quello di GPT-2 a GPT-3”, afferma Oren Etzioni, CEO dell’Allen Institute for Artificial Intelligence (AI2) di Seattle. Anche GPT-3 è un prodotto di OpenAI.

I modelli di generazione di immagini come DALL-E hanno fatto molta strada in pochi anni. Nel 2020, AI2 ha mostrato una rete neurale in grado di generare immagini da messaggi come: “tre persone giocano ai videogiochi su un divano”. I risultati erano distorti e sfocati, ma quasi riconoscibili. L’anno scorso, il gigante tecnologico cinese Baidu ha migliorato la qualità dell’immagine dell’originale DALL-E con un modello chiamato ERNIE-ViLG

DALL-E 2 si spinge ancora più avanti. Le sue creazioni possono essere sbalorditive: se gli si chiede di generare immagini di astronauti a cavallo, scienziati orsacchiotti o lontre marine nello stile di Vermeer, lo fa quasi con un alta dose di fotorealismo. Gli esempi che OpenAI ha presentato, così come quelli che ho visto la scorsa settimana in una demo dell’azienda, sono di qualità notevole.

Le migliori prestazioni di DALL-E 2 sono dovute a una riprogettazione completa. La versione originale era più o meno un’estensione di GPT-3, che iniziava con poche parole o frasi e proseguiva in modo autonomo, prevedendo le successive centinaia di parole nella sequenza. DALL-E ha funzionato più o meno allo stesso modo, solo che al posto delle parole ha messo i pixel. Se riceveva un messaggio di testo, “completava” quel testo prevedendo la stringa di pixel che pensava fosse più probabile che venisse dopo, producendo un’immagine.  

DALL-E 2 non si ispira a GPT-3. Il suo funzionamento si articola in due fasi. In primo luogo, utilizza il modello linguistico CLIP di OpenAI, che può accoppiare descrizioni scritte con immagini, per tradurre il prompt di testo in una forma intermedia che catturi le caratteristiche chiave che un’immagine dovrebbe avere per corrispondere a quel prompt (secondo CLIP). In secondo luogo, DALL-E 2 esegue un tipo di rete neurale nota come modello di diffusione per generare un’immagine che soddisfi CLIP.

Questi modelli vengono addestrati su immagini che sono state completamente distorte con pixel casuali. Imparano a riconvertire queste immagini nella loro forma originale. In DALL-E 2 non ci sono immagini esistenti. Quindi il modello di diffusione prende i pixel in modo casuale e, guidato da CLIP, li converte in un’immagine nuova di zecca, creata da zero, che corrisponde al prompt del testo. Il modello di diffusione consente a DALL-E 2 di produrre immagini ad alta risoluzione più rapidamente rispetto a DALL-E e “lo rende molto più pratico e divertente da usare”, afferma Aditya Ramesh di OpenAI.

Nella demo, Ramesh e i suoi colleghi mi hanno mostrato le immagini di un riccio che usa una calcolatrice, un corgi e un panda che giocano a scacchi e un gatto vestito da Napoleone con in mano un pezzo di formaggio. Tuttavia, DALL-E 2 accusa ancora qualche colpo a vuoto. Per esempio, mostra difficoltà se un prompt gli chiede di combinare due o più oggetti con diversi attributi, come “Un cubo rosso sopra un cubo blu”. OpenAI pensa che ciò sia dovuto al fatto che CLIP non collega sempre correttamente gli attributi agli oggetti.

Oltre a eliminare i messaggi di testo, DALL-E 2 può creare variazioni di immagini esistenti. Ramesh ha inserito una foto di alcuni lavori di street art e l’AI ha iniziato immediatamente a generare versioni alternative della scena con diversi disegni sul muro. Ognuna di queste nuove immagini può essere utilizzata per dare il via alla propria sequenza di variazioni. A suo parere, questo ciclo di feedback potrebbe essere davvero utile per i designer.

Uno dei primi utenti, un’artista di nome Holly Herndon, afferma di utilizzare DALL-E 2 per creare composizioni delle dimensioni di una parete. “Posso cucire insieme opere d’arte di grandi dimensioni pezzo per pezzo, come un arazzo patchwork o un viaggio narrativo”, dice. 

Il feedback degli utenti

DALL-E 2 sembra un prodotto molto più lucido rispetto alla versione precedente. OpenAI, continua Ramesh, prevede di rilasciare DALL-E 2 al pubblico dopo un lancio iniziale a un piccolo gruppo di utenti fidati, proprio come ha fatto con GPT-3 (Per registrarsi si può accedere a questo link). Vista l’esperienza di GPT-3, che aveva portato alla produzione di testo indesiderato, OpenAI ha utilizzato il feedback ricevuto dagli utenti di GPT-3 per addestrare una versione più sicura, chiamata InstructGPT

L’azienda spera di seguire un percorso simile con DALL-E 2, che sarà a sua volta modellato dal feedback degli utenti. OpeAI incoraggerà gli utenti iniziali a indurre l’AI a generare immagini offensive o dannose. Risolti questi problemi, OpenAI renderà DALL-E 2 disponibile a un gruppo più ampio di persone. L’azienda sta inoltre rilasciando una politica per gli utenti per DALL-E, che vieta di chiedere all’AI di generare immagini offensive, violente, pornografiche o politiche. Per prevenire deep fake, gli utenti non potranno chiedere a DALL-E di generare immagini di persone reali.

Oltre alla politica per gli utenti, OpenAI ha rimosso alcuni tipi di immagini dai dati di allenamento di DALL-E 2, compresi quelli con espressioni grafiche violente. OpenAI afferma anche che pagherà i moderatori umani per rivedere ogni immagine generata sulla sua piattaforma. “Il nostro obiettivo principale è ottenere suggerimenti per il sistema prima di iniziare a condividerlo in modo più ampio”, afferma Prafulla Dhariwal di OpenAI.

Intelligenza creativa

Le AI versatili in grado di visualizzare il mondo e lavorare con concetti multimodali, come il linguaggio e la visione, sono un passo verso un’intelligenza generale. DALL-E 2 è uno degli esempi finora più avanzati.  Etzioni, pur rimanendo impressionato dalle immagini che DALL-E 2 produce, è cauto su cosa questo significhi per il progresso generale dell’AI. “Questo tipo di progresso non ci avvicina più all’artificial general intelligence (AGI)“, afferma. “Sappiamo già che l’AI è in grado di risolvere compiti ristretti utilizzando il deep learning. Ma sono gli esseri umani che formulano questi compiti e impartiscono al deep learning il ruolino di marcia”.

Per Mark Riedl, un ricercatore di intelligenza artificiale della Georgia Tech di Atlanta, la creatività è un buon modo per misurare l’intelligenzaA differenza del test di Turing, che richiede una macchina per ingannare un essere umano attraverso la conversazione, il test Lovelace 2.0 di Riedl giudica l’intelligenza di una macchina in base a quanto bene risponde alle richieste di creare qualcosa, come per esempio “l’immagine di un pinguino in una tuta spaziale su Marte”.

DALL-E ottiene buoni punteggi in questo test. Ma l’intelligenza è una scala mobile. Man mano che costruiamo macchine sempre migliori, i nostri test per l’intelligenza devono adattarsi. Molti chatbot ora sono molto bravi a imitare la conversazione umana, superando il test di Turing in senso stretto, ma sono ancora senza cervello.

Tuttavia, anche le idee su cosa intendiamo per “creare” e “capire” cambiano, afferma Riedl. “Questi termini sono mal definiti e soggetti a dibattito”. Un’ape comprende il significato del giallo perché opera su quell’informazione, per esempio. “Se parametriamo la comprensione su quella umana, i sistemi di intelligenza artificiale sono molto lontani“, afferma Riedl.

“Ma direi anche che questi sistemi di generazione artistica hanno una comprensione di base che si sovrappone alla comprensione umana”, continua. “Possono mettere un tutù su un ravanello allo stesso modo in cui un essere umano ne metterebbe uno”. Come l’ape, DALL-E 2 opera sulle informazioni, producendo immagini che soddisfano le aspettative umane. 

L’obiettivo di OpenAI è creare intelligenza generale”, afferma Dhariwal. “Modelli come DALL-E 2 che connettono visione e linguaggio rappresentano un passaggio cruciale per insegnare alle macchine a conoscere il mondo come fanno gli umani e, infine, sviluppare l’AGI”.

Related Posts
Total
0
Share