Skip to main content
Intel Labs

Durante l’ECCV 2024 a Milano, Intel ha presentato importanti innovazioni nel campo della Computer Vision e dell’apprendimento automatico. Tra le novità più rilevanti RACE, una tecnica avanzata per la protezione dei modelli testo-immagine, e Mesh2NeRF, un nuovo metodo che migliora la qualità della sintesi 3D.

Durante l’European Conference on Computer Vision (ECCV) 2024, che si è svolta a Milano tra il 29 settembre e il 4 ottobre, Intel ha presentato una serie di avanzamenti significativi nel campo della Computer Vision e dell’apprendimento automatico. La conferenza, organizzata dall’European Computer Vision Association (ECVA), è una delle più importanti a livello globale e rappresenta un punto d’incontro per i maggiori esperti e innovatori del settore. Quest’anno, i laboratori Intel hanno avuto un ruolo di primo piano, presentando sei lavori di ricerca che spaziano dalla protezione dei modelli generativi fino allo sviluppo di nuovi dataset per migliorare la coerenza spaziale nei modelli testo-immagine.

Uno degli elementi centrali della partecipazione di Intel all’ECCV è stato un nuovo approccio di difesa progettato per proteggere i modelli di generazione testo-immagine (T2I) dagli attacchi di red teaming basati su prompt. Questo approccio, denominato Robust Adversarial Concept Erasure (RACE), è stato illustrato in un documento che ha mostrato come la sicurezza nei modelli di diffusione generativa possa essere aumentata attraverso l’integrazione di tecniche avanzate di cancellazione di concetti sensibili. La tecnologia RACE sfrutta l’apprendimento automatico antagonistico per identificare e mitigare gli attacchi mirati all’uso improprio dei modelli T2I, riducendo significativamente la possibilità che contenuti dannosi vengano generati, come nel caso di contenuti espliciti o sensibili, nonostante i tentativi di eludere i sistemi di controllo esistenti​.

R.A.C.E. : Robust Adversarial Concept Erasurefor Secure Text-to-Image Diffusion Model - Intel Lab

Dimostrazione comparativa della cancellazione dei concetti, del red teaming e della cancellazione robusta nei modelli di diffusione T2I. Il metodo ESD rimuove i concetti mirati dagli output SD originali, ma questi concetti possono essere ricostruiti utilizzando UnlearnDiff. Il metodo R.A.C.E. dimostra una maggiore robustezza nei confronti di questi tentativi di ricostruzione con red teaming.

Parallelamente, Intel ha presentato un nuovo dataset chiamato SPRIGHT, sviluppato per affrontare una delle principali limitazioni nei modelli testo-immagine: la difficoltà nel gestire le relazioni spaziali tra gli oggetti nelle immagini generate. Questo dataset, frutto della collaborazione con l’Università del Maryland e l’Arizona State University, è il primo dataset su larga scala incentrato esplicitamente sulle relazioni spaziali. SPRIGHT è stato creato ri-etichettando circa sei milioni di immagini da dataset già esistenti, con l’obiettivo di migliorare la precisione delle immagini generate in termini di coerenza spaziale rispetto ai prompt testuali. Il risultato? Un miglioramento del 22% nella generazione di immagini spazialmente corrette rispetto ai modelli precedenti, aprendo nuove possibilità per applicazioni che richiedono maggiore precisione visiva, come la robotica o l’editing video.

Getting it Right: Improving Spatial Consistency in Text-to-Image Models - Intel Labs

I dataset di linguaggio visivo esistenti non catturano bene le relazioni spaziali. Per ovviare a questa carenza, i ricercatori di Intel Labs hanno ricatturato sinteticamente ∼6M immagini con un focus spaziale, creando il dataset SPRIGHT (SPatially RIGHT).

Un altro dei lavori chiave presentati da Intel riguarda Mesh2NeRF, un nuovo metodo per l’estrazione di campi di radianza veritieri direttamente dalle mesh 3D testurizzate. Questa tecnologia, sviluppata in collaborazione con l’Università Tecnica di Monaco, è stata progettata per superare i limiti delle attuali tecniche di ricostruzione 3D, che spesso soffrono di artefatti legati alle occlusioni o all’underfitting durante il rendering di viste multiple. Mesh2NeRF consente di ottenere campi di radianza accurati dalle mesh, migliorando significativamente la qualità della sintesi di nuove viste in applicazioni di generazione 3D. Questo approccio offre una soluzione più precisa e diretta per la supervisione dei modelli di generazione NeRF, con applicazioni che spaziano dalla rappresentazione di scene singole alla generazione 3D incondizionata​.

Intel Labs in collaborazione con TU Munich

Il nuovo metodo Mesh2NeRF.

A completare le novità presentate da Intel durante l’ECCV 2024, vi è stata una presentazione dedicata alla quantizzazione dei modelli di visione, in particolare per i Vision Transformer (ViTs). CLAMP-ViT, un nuovo metodo di quantizzazione post-training senza dati, è stato introdotto per migliorare l’efficienza della quantizzazione dei modelli ViTs, utilizzando tecniche di apprendimento contrastivo. CLAMP-ViT risolve alcune delle principali limitazioni dei metodi precedenti, come la mancanza di relazioni semantiche significative tra i patch generati. Attraverso un approccio ciclico che alterna la generazione dei dati e la quantizzazione del modello, CLAMP-ViT offre miglioramenti fino al 3% nell’accuratezza e ottimizza il rapporto compressione-precisione nei compiti di classificazione, rilevamento e segmentazione​.

Intel Labs in collaborazione con Georgia Institute of Technology

Confronto tra i dati sintetici generati da (a) PSAQ-ViT v1 [28], (b) PSAQViT v2 [26] e (c) CLAMP-ViT. CLAMP-ViT genera oggetti dettagliati all’interno di sfondi adatti al contesto, aumentando il realismo e l’informatività.

Oltre alle ricerche tecniche, Intel ha anche organizzato, insieme a diverse università, un tutorial incentrato sulla costruzione di modelli generativi in modo responsabile. Questo aspetto è diventato sempre più critico con la crescente adozione di modelli generativi nei processi di produzione. Ilke Demir, uno dei ricercatori principali di Intel, ha presentato l’algoritmo FakeCatcher, che sfrutta i segnali del flusso sanguigno per distinguere i contenuti reali dai falsi. Questo strumento, pensato per essere utilizzato da istituzioni e professionisti, è in grado di identificare contenuti manipolati con alta precisione, un passo importante per contrastare l’uso improprio delle tecnologie di deepfake.

Sfide sia tecniche che etiche, puntando a soluzioni per migliorare le capacità dei modelli di intelligenza artificiale in un futuro digitale sicuro e responsabile.