
A più di un mese dal lancio, il modello di intelligenza artificiale continua a inserire didascalie confuse e senza senso nei video, anche quando gli utenti chiedono esplicitamente di non inserirle.
Non appena Google ha lanciato il suo ultimo modello di IA per la generazione di video alla fine di maggio, i creativi si sono affrettati a metterlo alla prova. Rilasciato pochi mesi dopo il suo predecessore, Veo 3 consente agli utenti di generare suoni e dialoghi per la prima volta, scatenando una raffica di clip iperrealistiche di otto secondi cucite insieme in pubblicità, video ASMR, trailer di film immaginari e divertenti interviste di strada. Il regista candidato all’Oscar Darren Aronofsky ha utilizzato lo strumento per creare un cortometraggio intitolato Ancestra. Durante una conferenza stampa, Demis Hassabis, CEO di Google DeepMind, ha paragonato questo balzo in avanti all'”uscita dall’era del silenzio della generazione video”.
Ma altri hanno scoperto subito che, per certi versi, lo strumento non funzionava come previsto. Quando genera clip che includono dialoghi, Veo 3 spesso aggiunge sottotitoli senza senso e confusi, anche quando le istruzioni fornite richiedono esplicitamente di non aggiungere didascalie o sottotitoli.
Eliminarli non è semplice, né economico. Gli utenti sono stati costretti a ricorrere alla rigenerazione dei clip (che comporta un costo aggiuntivo), all’utilizzo di strumenti esterni per la rimozione dei sottotitoli o al ritaglio dei video per eliminare completamente i sottotitoli.
Josh Woodward, vicepresidente di Google Labs e Gemini, ha pubblicato su X il 9 giugno che Google aveva sviluppato delle correzioni per ridurre il testo senza senso. Ma più di un mese dopo, gli utenti continuano a segnalare problemi al canale Discord di Google Labs, dimostrando quanto possa essere difficile correggere i problemi nei principali modelli di IA.
Come i suoi predecessori, Veo 3 è disponibile per gli abbonati a Google, con un costo mensile a partire da 249,99 dollari. Per generare un clip di otto secondi, gli utenti inseriscono un testo che descrive la scena che desiderano creare nello strumento di produzione cinematografica AI di Google, Flow, Gemini o altre piattaforme Google. Ogni generazione di Veo 3 costa un minimo di 20 crediti AI e l’account può essere ricaricato al costo di 25 dollari per 2.500 crediti.
Mona Weiss, direttrice creativa pubblicitaria, afferma che rigenerare le sue scene nel tentativo di eliminare i sottotitoli casuali sta diventando costoso. “Se si crea una scena con dei dialoghi, fino al 40% del risultato finale presenta sottotitoli senza senso che la rendono inutilizzabile”, afferma. “Si spendono soldi per ottenere una scena che piace, ma poi non è nemmeno possibile utilizzarla”.
Quando Weiss ha segnalato il problema a Google Labs tramite il canale Discord nella speranza di ottenere un rimborso per i crediti sprecati, il team le ha indirizzato al team di assistenza ufficiale dell’azienda. Le hanno offerto un rimborso per il costo di Veo 3, ma non per i crediti. Weiss ha rifiutato, poiché accettare avrebbe significato perdere completamente l’accesso al modello. Il team di assistenza Discord di Google Labs ha comunicato agli utenti che i sottotitoli possono essere attivati dal parlato, affermando di essere a conoscenza del problema e di stare lavorando per risolverlo.
Allora perché Veo 3 insiste nell’aggiungere questi sottotitoli e perché sembra così difficile risolvere il problema? Probabilmente dipende da ciò su cui è stato addestrato il modello.
Sebbene Google non abbia reso pubbliche queste informazioni, è probabile che i dati di addestramento includano video di YouTube, clip di vlog e canali di gaming e montaggi di TikTok, molti dei quali sono dotati di sottotitoli. Questi sottotitoli incorporati fanno parte dei fotogrammi del video piuttosto che essere tracce di testo separate sovrapposte, il che significa che è difficile rimuoverli prima che vengano utilizzati per l’addestramento, afferma Shuo Niu, assistente professore alla Clark University nel Massachusetts che studia le piattaforme di condivisione video e l’intelligenza artificiale.
“Il modello di conversione da testo a video viene addestrato utilizzando l’apprendimento per rinforzo per produrre contenuti che imitano i video creati dall’uomo e, se tali video includono sottotitoli, il modello può ‘imparare’ che l’incorporazione dei sottotitoli migliora la somiglianza con i contenuti generati dall’uomo”, afferma.
“Stiamo lavorando costantemente per migliorare la creazione di video, in particolare per quanto riguarda il testo, la naturalezza del parlato e la perfetta sincronizzazione dell’audio”, afferma un portavoce di Google. “Invitiamo gli utenti a riprovare il prompt se notano un’incongruenza e a fornirci un feedback utilizzando l’opzione pollice su/pollice giù”.
Per quanto riguarda il motivo per cui il modello ignora istruzioni come “Nessun sottotitolo”, i prompt negativi (che dicono a un modello di IA generativa di non fare qualcosa) sono solitamente meno efficaci di quelli positivi, afferma Tuhin Chakrabarty, assistente professore alla Stony Brook University che studia i sistemi di IA.
Per risolvere il problema, Google dovrebbe controllare ogni fotogramma di ogni video su cui Veo 3 è stato addestrato e eliminare o rietichettare quelli con didascalie prima di riaddestrare il modello, un’impresa che richiederebbe settimane, afferma.
Katerina Cizek, documentarista e direttrice artistica del MIT Open Documentary Lab, ritiene che il problema sia emblematico della volontà di Google di lanciare prodotti prima che siano completamente pronti.
“Google aveva bisogno di una vittoria”, afferma. “Avevano bisogno di essere i primi a lanciare uno strumento in grado di generare audio sincronizzato con il labiale. E questo era più importante che risolvere il problema dei sottotitoli”.




