Skip to main content
OPENAI

L’azienda sta condividendo Sora con un piccolo gruppo di tester di sicurezza, ma il resto di noi dovrà aspettare per saperne di più.

OpenAI ha realizzato un nuovo e sorprendente modello video generativo, chiamato Sora, in grado di prendere una breve descrizione testuale e trasformarla in un filmato dettagliato ad alta definizione della durata massima di un minuto.

Sulla base di quattro video campione che OpenAI ha condiviso con il MIT Technology Review prima dell’annuncio di oggi, l’azienda di San Francisco ha spinto al massimo ciò che è possibile fare con la generazione di video da testo (una nuova direzione di ricerca che abbiamo segnalato come tendenza da tenere d’occhio nel 2024).

“Pensiamo che la costruzione di modelli in grado di comprendere i video e tutte le interazioni complesse del nostro mondo sia un passo importante per tutti i futuri sistemi di intelligenza artificiale”, afferma Tim Brooks, scienziato di OpenAI.

Ma c’è un disclaimer. OpenAI ci ha fornito un’anteprima di Sora (che in giapponese significa cielo) in condizioni di stretta segretezza. Con una mossa insolita, l’azienda ha condiviso le informazioni su Sora solo dopo che abbiamo accettato di aspettare fino a quando la notizia del modello fosse stata resa pubblica per chiedere il parere di esperti esterni. OpenAI non ha rilasciato una relazione tecnica né ha dimostrato che il modello funziona davvero. E ha dichiarato che non rilascerà Sora a breve.

PROMPT: La scena animata presenta un primo piano di un mostro basso e soffice inginocchiato accanto a una candela rossa che si sta sciogliendo. Lo stile artistico è tridimensionale e realistico, con particolare attenzione all’illuminazione e alla texture. L’atmosfera del dipinto è di meraviglia e curiosità, poiché il mostro guarda la fiamma con occhi spalancati e bocca aperta. La sua posa e la sua espressione trasmettono un senso di innocenza e giocosità, come se stesse esplorando il mondo circostante per la prima volta. L’uso di colori caldi e di un’illuminazione drammatica rafforza ulteriormente l’atmosfera accogliente dell’immagine. (Credit: OpenAI)
PROMPT: Un mondo in cartapesta splendidamente reso di una barriera corallina, ricca di pesci colorati e creature marine (Credit: OpenAI)

I primi modelli generativi in grado di produrre video da frammenti di testo sono apparsi alla fine del 2022. Ma i primi esempi di Meta, Google e di una startup chiamata Runway erano discontinui e sgranati. Da allora, la tecnologia è migliorata rapidamente. Il modello gen-2 di Runway, rilasciato l’anno scorso, è in grado di produrre brevi clip che si avvicinano per qualità alle animazioni dei grandi studi. Ma la maggior parte di questi esempi dura ancora pochi secondi. 

I video campione di Sora di OpenAI sono ad alta definizione e ricchi di dettagli. OpenAI dice anche che può generare video lunghi fino a un minuto. Un video di una strada di Tokyo mostra che Sora ha imparato come si incastrano gli oggetti in 3D: la telecamera si immerge nella scena per seguire una coppia che passa davanti a una fila di negozi.

OpenAI sostiene inoltre che Sora gestisce bene l’occlusione ambientale. Un problema dei modelli esistenti è che possono non tenere traccia degli oggetti quando escono dalla visuale. Ad esempio, se un camion passa davanti a un cartello stradale, questo potrebbe non riapparire più. 

In un video di una scena subacquea di papercraft, Sora ha aggiunto quelli che sembrano tagli tra diversi spezzoni di filmati, mentre il modello ha mantenuto uno stile coerente tra di essi.

Non è perfetto. Nel video di Tokyo, le auto a sinistra sembrano più piccole delle persone che camminano accanto a loro. Inoltre, spuntano tra i rami degli alberi. “C’è sicuramente del lavoro da fare in termini di coerenza a lungo termine”, dice Brooks. “Per esempio, se qualcuno esce dalla visuale per un lungo periodo di tempo, non tornerà più. Il modello dimentica che doveva essere lì”.

Tech tease

Per quanto impressionanti, i video di esempio mostrati qui sono stati senza dubbio selezionati per mostrare Sora al meglio. Senza ulteriori informazioni, è difficile sapere quanto siano rappresentativi della produzione tipica del modello.  

Potrebbe passare del tempo prima di scoprirlo. L’annuncio odierno di Sora da parte di OpenAI è una presa in giro tecnologica e l’azienda afferma di non avere in programma di rilasciarlo al pubblico. Al contrario, OpenAI inizierà oggi a condividere il modello con i tester di sicurezza di terze parti per la prima volta.

In particolare, l’azienda è preoccupata per i potenziali usi impropri di video falsi ma fotorealistici. “Stiamo facendo attenzione alla distribuzione e ci assicuriamo di avere tutte le basi coperte prima di metterlo nelle mani del pubblico”, dice Aditya Ramesh, scienziato di OpenAI, che ha creato il modello DALL-E da testo a immagine.

Ma OpenAI prevede un lancio del prodotto in futuro. Oltre ai tester di sicurezza, l’azienda sta condividendo il modello con un gruppo selezionato di videomaker e artisti per ottenere un feedback su come rendere Sora il più utile possibile ai professionisti della creatività. “L’altro obiettivo è mostrare a tutti cosa c’è all’orizzonte, per dare un’anteprima di ciò che questi modelli saranno in grado di fare”, dice Ramesh.

Per costruire Sora, il team ha adattato la tecnologia di DALL-E 3, l’ultima versione del modello text-to-image di punta di OpenAI. Come la maggior parte dei modelli text-to-image, DALL-E 3 utilizza il cosiddetto modello di diffusione. Questi sono addestrati a trasformare una serie di pixel casuali in un’immagine.

Sora riprende questo approccio e lo applica ai video anziché alle immagini fisse. Ma i ricercatori hanno anche aggiunto un’altra tecnica al mix. A differenza di DALL-E o della maggior parte degli altri modelli video generativi, Sora combina il suo modello di diffusione con un tipo di rete neurale chiamata trasformatore.

I trasformatori sono ottimi per elaborare lunghe sequenze di dati, come le parole. Questo li ha resi la salsa speciale all’interno di grandi modelli linguistici come GPT-4 di OpenAI e Gemini di Google DeepMind. Ma i video non sono fatti di parole. I ricercatori hanno quindi dovuto trovare un modo per tagliare i video in pezzi che potessero essere trattati come se lo fossero. L’approccio che hanno trovato è stato quello di suddividere i video sia nello spazio che nel tempo. “È come se si avesse una pila di tutti i fotogrammi video e si tagliassero dei piccoli cubi”, spiega Brooks.

Il trasformatore all’interno di Sora è in grado di elaborare queste porzioni di dati video nello stesso modo in cui il trasformatore all’interno di un modello linguistico di grandi dimensioni elabora le parole in un blocco di testo. I ricercatori affermano che questo ha permesso loro di addestrare Sora su molti più tipi di video rispetto ad altri modelli text-to-video, variando in termini di risoluzione, durata, rapporto di aspetto e orientamento. “Questo aiuta molto il modello”, dice Brooks. “È un aspetto su cui non siamo a conoscenza di alcun lavoro esistente”.

PROMPT: Diversi mammut lanosi giganti si avvicinano camminando in un prato innevato, la loro lunga pelliccia lanosa soffia leggermente nel vento mentre camminano, alberi coperti di neve e drammatiche montagne innevate in lontananza, la luce di metà pomeriggio con nuvole vaporose e un sole alto in lontananza crea un bagliore caldo, la vista a camera bassa è stupefacente catturando il grande mammifero peloso con una bella fotografia, profondità di campo (Credit: OpenAI)
PROMPT: La bella e nevosa città di Tokyo è in fermento. La telecamera si muove nella vivace strada della città, seguendo diverse persone che si godono il bel tempo innevato e fanno acquisti nelle bancarelle vicine. Splendidi petali di sakura volano nel vento insieme ai fiocchi di neve. (Credit: OpenAI)

“Da un punto di vista tecnico sembra un balzo in avanti molto significativo”, afferma Sam Gregory, direttore esecutivo di Witness, un’organizzazione per i diritti umani specializzata nell’uso e nell’abuso della tecnologia video. “Ma ci sono due facce della medaglia”, afferma. “Le capacità espressive offrono la possibilità a molte più persone di diventare narratori utilizzando il video. Ma ci sono anche potenziali vie di abuso”.

OpenAI è ben consapevole dei rischi che comporta un modello video generativo. Stiamo già assistendo all’uso improprio su larga scala di immagini deepfake. I video fotorealistici portano questo fenomeno a un altro livello.

Gregory osserva che si potrebbe usare una tecnologia del genere per disinformare le persone sulle zone di conflitto o sulle proteste. Anche la gamma di stili è interessante. Se si potessero generare filmati traballanti che sembrassero girati con un telefono, risulterebbero più autentici.

La tecnologia non è ancora pronta, ma il video generativo è passato da zero a Sora in soli 18 mesi. “Stiamo per entrare in un universo in cui ci saranno contenuti completamente artificiali, contenuti generati dall’uomo e un mix dei due”, afferma Gregory.

Il team di OpenAI intende basarsi sui test di sicurezza effettuati l’anno scorso per DALL-E 3. Sora include già un filtro che funziona su tutte le richieste inviate al modello e che blocca le richieste di immagini violente, sessuali o che incitano all’odio, nonché le immagini di persone note. Un altro filtro analizza i fotogrammi dei video generati e blocca il materiale che viola le politiche di sicurezza di OpenAI.

OpenAI dice anche che sta adattando un rilevatore di immagini false sviluppato per DALL-E 3 per utilizzarlo con Sora. Inoltre, l’azienda inserirà in tutti i risultati di Sora i tag C2PA, metadati che indicano come è stata generata un’immagine. Ma questi passi sono tutt’altro che infallibili. I rilevatori di immagini false sono difficili da individuare. I metadati sono facili da rimuovere e la maggior parte dei siti di social media li rimuove dalle immagini caricate per impostazione predefinita. 

“Avremo sicuramente bisogno di ricevere ulteriori feedback e di saperne di più sui tipi di rischio che devono essere affrontati con i video prima che abbia senso rilasciare questo prodotto”, afferma Ramesh.

Brooks è d’accordo. “Parte del motivo per cui stiamo parlando di questa ricerca ora è che possiamo iniziare a ricevere gli input necessari per fare il lavoro necessario a capire come potrebbe essere impiegato in modo sicuro”, dice.