Skip to main content

Il nuovo gruppo di ricerca nelle Intelligente Artificiali di Facebook raggiunge un importante traguardo nei software di elaborazione del volto.

Alla domanda se due foto di volti sconosciuti mostrano la stessa persona, un essere umano risponderà esattamente il 97.53 per cento delle volte. Un nuovo software sviluppato dai ricercatori di Facebook può rispondere con un’accuratezza del 97.25 per cento alla stessa domanda, indipendentemente dalle variazioni nella luce o dal fatto che la persona nella foto sia rivolta verso la macchina fotografica.

Si tratta di un importante passo avanti rispetto ai precedenti software di riconoscimento facciale, e dimostra la capacità di un nuovo approccio all’intelligenza artificiale conosciuto come apprendimento profondo, sul quale Facebook e i suoi concorrenti hanno scommesso pesantemente (si veda “Odissea nel Cervello“,di Robert D. Hof) dall’anno scorso. Questo campo dell’Intelligenza Artificiale comporta un software che utilizza reti neurali simulate per imparare a riconoscere degli schemi in una grande quantità di dati.

Un miglioramento simile non è tanto comune”, spiega Yaniv Taigman, un membro del team AI di Facebook, un gruppo di ricerca creato lo scorso anno per capire come l’apprendimento profondo potrebbe aiutare l’azienda (si veda “Facebook lancia un’intelligenza artificiale avanzata per comprendere il significato dei vostri post“). “Siamo molto vicini alle prestazione umane”, dice Taigman, che sottolinea come la percentuale di errore sia stata ridotta di più di un quarto rispetto a software precedenti che svolgevano lo stesso compito.

Un primo piano per la fotocamera: DeepFace utilizza un modello 3-D per ruotare virtualmente i volti affinché siano rivolti verso la telecamera. L’immagine (a) mostra lo scatto originale mentre l’immagine (g) mostra la versione finale corretta.

Il nuovo software di Facebook, conosciuto come DeepFace, esegue quello che i ricercatori definiscono una verifica facciale (la verifica che due immagini mostrino lo stesso viso), non un riconoscimento facciale (associare un nome a un volto). Taigman sostiene però che alcune delle tecniche utilizzate nel processo di riconoscimento facciale potrebbero essere applicate a questo sistema e migliorare la precisione di Facebook, suggerendo quali utenti taggare in una foto appena scaricata.

Tuttavia, per il momento, DeepFace rimane solamente un progetto di ricerca. La scorsa settimana, Facebook ha pubblicato un documento di ricerca sul progetto, e i ricercatori presenteranno il lavoro nel corso della IEEE Conference on Computer Vision and Pattern Recognition a giugno.

“Stiamo pubblicando i nostri risultato per ottenere un feedback dalla comunità di ricerca”, spiega Taigman, che ha sviluppato DeepFace insieme ai colleghi di Facebook, Ming Yang e Marc’Aurelio Ranzato, in collaborazione con Lior Wolf, professore presso l’Università di Tal Aviv.

DeepFace elabora le immagini dei volti in due fasi. Per prima cosa corregge l’angolo di un viso in modo che la persona nella foto si trovi di fronte, utilizzando un modello tridimensionale “base” di una persona che guarda in avanti. Successivamente, il “deep learning” entra in gioco come una rete neurale simulata e risolve una descrizione numerica per riorientare il viso. Se DeepFace elabora descrizioni abbastanza simili da due immagini differenti, conclude che queste devono mostrare lo stesso viso.

La prestazioni del software finito sono messe alla prova con un gruppo standard di dati che i ricercatori utilizzano per determinare le capacità dei software di riconoscimento facciale, e che è stato utilizzato anche per misurare la capacità delle persone di riconoscere i volti.

Neeraj Kumar, un ricercatore dell’Università di Washington che ha lavorato sulla verifica e il riconoscimento facciale, spiega che i risultati di Facebook mostrano come il reperimento di dati sufficienti per alimentare una vasta rete neurale possa portare a significativi miglioramenti nei software di apprendimento automatico. “Sono pronto a scommettere che gran parte dei benefici derivino da ciò che l’apprendimento profondo generalmente fornisce: la capacità di influenzare una grande quantità di dati esterni in un modello di capacità di apprendimento molto più alto”.

La componente di apprendimento profondo del DeepFace consiste di nove strati di semplici neuroni simulati con oltre 120 milioni di connessioni tra loro. Per allenare questa rete, i ricercatori di Facebook hanno estrapolato una piccola fetta di dati dalla riserva di immagini dei suoi utenti – quattro milioni di foto di volti appartenenti a quasi 4.000 persone. Secondo Kumar, “disponendo di molti dati in questo formato, possono preparare con successo un modello ad alta capacità”.

CO