Google Brain ha presentato Imagen, un sistema di intelligenza artificiale per la creazione di immagini a partire da un qualsiasi testo. Ma non è tutto oro quello che luccica
Will Douglas Heaven
Ad aprile, OpenAI ha presentato la sua nuova rete neurale, DALL-E 2, in grado di produrre straordinarie immagini ad alta risoluzione di quasi tutto ciò che gli viene chiesto, con miglioramenti evidenti sotto tutti i punti di vista rispetto all’originale DALL-E. Ora, solo poche settimane dopo, Google Brain ha svelato la propria AI per la creazione di immagini, chiamata Imagen, che secondo una giuria umana ha prestazioni superiori a DALL-E 2. Al sistema, infatti, è stato attribuito un punteggio più alto su una misura standard per la valutazione della qualità delle immagini generate al computer.
Molte delle immagini di Imagen sono davvero sbalorditive. Quelle all’aperto, ricordano le pagine del National Geographic. I team di marketing potrebbero utilizzare Imagen per produrre annunci pubblicitari pronti per i cartelloni pubblicitari con pochi clic. Ma come ha fatto OpenAI con DALL-E, Google punta tutto sulla “tenerezza”. Entrambe le aziende promuovono i loro strumenti con immagini di animali antropomorfi che fanno cose adorabili: un panda peloso vestito da chef che prepara la pasta, un corgi seduto in una casa fatta di sushi, un orsacchiotto che nuota a farfalla i 400 metri alle Olimpiadi e così via.
C’è una ragione tecnica, oltre che il tentativo di accattivarsi il pubblico. Mescolare concetti come “panda soffice” e “fare la pasta” costringe la rete neurale a dare senso a due idee così lontane tra loro. Ma l’aspetto “adorabile” nasconde un lato oscuro, uno che il pubblico non può vedere perché rivelerebbe una verità che non si vuole dire su come vengono creati.
La maggior parte delle immagini che OpenAI e Google rendono pubbliche sono selezionate. Vediamo solo immagini soft che corrispondono a quanto ci si aspetta. Niente stereotipi odiosi, razzismo o misoginia. Non ci sono immagini violente e sessiste. Non esiste il porno panda. E la cosa, da quanto sappiamo su come sono costruiti questi strumenti, appare molto strana.
Non è un segreto che modelli di grandi dimensioni, come DALL-E 2 e Imagen, addestrati su un gran numero di documenti e immagini presi dal web, assorbano gli aspetti peggiori di quei dati oltre che il meglio. OpenAI e Google lo riconoscono esplicitamente. Se si scorre sul sito web di Imagen – oltre il frutto del drago che indossa una cintura da karate e il piccolo cactus che indossa un cappello e occhiali da sole—si arriva alla sezione sull’impatto sociale e si può leggere: “Mentre un sottoinsieme dei nostri dati di allenamento è stato filtrato per rimuovere il rumore e i contenuti indesiderati, come immagini e linguaggio tossico, abbiamo anche utilizzato il set di dati LAION-400M che è noto per contenere un’ampia gamma di contenuti inappropriati tra cui immagini pornografiche, insulti razzisti e stereotipi sociali dannosi.
Imagen si basa su codificatori di testo addestrati su dati su scala web non curati, e quindi eredita i pregiudizi sociali e le limitazioni dei modelli linguistici di grandi dimensioni. Pertanto, esiste il rischio che Imagen abbia codificato stereotipi e rappresentazioni dannose, il che guida la nostra decisione di non rilasciare Imagen per uso pubblico senza procedere a ulteriori salvaguardie”.
È lo stesso tipo di riconoscimento che OpenAI ha fatto quando ha rivelato GPT-3 nel 2019: “i modelli addestrati su Internet hanno pregiudizi grandi come la rete”. E come ha sottolineato Mike Cook, che ricerca la creatività AI presso la Queen Mary University di Londra, questa consapevolezza si ritrova nelle dichiarazioni etiche che hanno accompagnato il grande modello linguistico di Google PaLM e DALL-E 2 di OpenAI. In breve, queste aziende sanno che i loro modelli sono capaci di produrre contenuti inqualificabili e non hanno idea di come risolvere il problema.
Per ora, la soluzione è tenerli nei box. DALL-E 2 disponibile solo per un piccolo gruppo di utenti fidati; Google non ha intenzione di rilasciare Imagen. Non ci sarebbe alcun problema se questi fossero semplicemente strumenti proprietari, ma queste aziende dettano le linee future dell’AI. Stanno creando nuove meraviglie, ma anche nuovi orrori e vanno avanti nel loro lavoro con un’alzata di spalle. Quando il team etico interno di Google ha sollevato problemi con i modelli linguistici di grandi dimensioni, nel 2020 ha sollevato il problema, la questione si è conclusa con il licenziamento di due dei suoi principali ricercatori.
I modelli linguistici di grandi dimensioni e le IA per la creazione di immagini hanno il potenziale per essere tecnologie che cambiano il mondo, ma solo se vengono messe sotto controllo le loro potenzialità negative. Ciò richiederà molte più ricerche. Qualche segno incoraggiante si è visto. Poche settimane fa Meta ha rilasciato la sua versione di un grande modello linguistico a alla comunità di ricercatori e Hugging Face farà altrettanto con la sua versione open source di GPT-3 nei prossimi due mesi.