Skip to main content

La capacità di individuare volti da qualunque angolatura, persino quando sono parzialmente occultati, è sempre stata una capacità unicamente umana, almeno fino a poco tempo fa.

di The Physics arXiv Blog

Nel 2001, due scienziati informatici, Paul Viola e Michael Jones, hanno dato il via ad una rivoluzione nel campo del riconoscimento facciale computerizzato. Dopo anni di ristagno, questi ricercatori hanno sviluppato un algoritmo in grado di individuare i volti nelle immagini in tempo reale. Di fatto, il cosiddetto algoritmo Viola-Jones era talmente veloce e semplice che presto sarebbe entrato a far parte degli standard per le fotocamere compatte.

Il trucco da loro escogitato consisteva nell’ignorare il problema ben più complesso del riconoscimento facciale e concentrarsi unicamente sul rilevamento. Il team si era inoltre concentrato esclusivamente sui volti immortalati frontalmente, ignorando qualunque altro volto preso da angolature differenti. Dati questi limiti, il team si sarebbe reso conto che il ponte del naso forma solitamente una linea verticale più luminosa rispetto alle orbite oculari ai lati, e notato che gli occhi erano spesso in ombra e formavano quindi una fascia orizzontale più scura.

Viola e Jones hanno quindi creato un algoritmo che ricercasse nelle immagini delle bande verticali luminose che potrebbero corrispondere con un naso, quindi delle bande scure orizzontali che potrebbero corrispondere agli occhi, e infine ricercare altre caratteristiche generiche associate ai volti.

Presa singolarmente, nessuna di queste caratteristiche allude particolarmente a un volto. Quando però questi elementi vengono rilevati a cascata uno dopo l’altro, il risultato è una buona indicazione della presenza di un volto in un’immagine, da cui il nome del processo: rilevatore a cascata. Siccome, inoltre, i test sono di facile esecuzione, l’algoritmo risultante è in grado di operare rapidamente in tempo reale. Laddove l’algoritmo di Viola-Jones costituiva una sorta di rilevazione per l’individuazione dei volti visti di fronte, la stessa accuratezza non poteva essere ottenuta da qualunque altro angolo, il che limitava severamente l’utilizzo del sistema per i motori di ricerca facciale.

è per questo motivo che Yahoo si è interessata al problema. Oggi, Sachin Farfade e Mohammad Saberian degli Yahoo Labs in California, e Li-Jia della vicina Università di Standord, hanno rivelato un nuovo approccio che permette ti rilevare volti immortalati da un angolo anche quando sono parzialmente occultati. Secondo questi ricercatori, il nuovo approccio sarebbe più semplice rispetto ad altri e riuscirebbe ugualmente a registrare prestazioni allo stato dell’arte.

Per realizzare il proprio modello Farfade e co hanno utilizzato un approccio fondamentalmente differente, concentrandosi sui progressi conseguiti negli ultimi anni da una forma di apprendimento automatico conosciuta come rete neurale convoluzionale profonda. L’idea consiste nell’addestrare una rete neurale formata da molteplici strati utilizzando un vasto database di esempi annotati, costituiti in questo caso da immagini di volti prese da angoli differenti.

Al fine di addestrare la loro rete neurale, Farfade e co hanno creato un database di 200,000 immagini che include volti raffigurati da diverse angolature e profili ed altri 20 milioni di immagini senza volti. Il team ha quindi addestrato la rete neurale con gruppi di 128 immagini per oltre 50,000 cicli. Il risultato è un singolo algoritmo che è in grado di individuare con una precisione sorprendente molteplici volti da un’ampia gamma di angoli, persino quando sono parzialmente occultati

Il team ha battezzato l’approccio con il nome “Deep Dense Face Detector” e sostiene che sia in grado di reggere il confronto con altri algoritmi. “Abbiamo confrontato il nostro metodo con altri metodi basati sull’apprendimento approfondito, e mostrato che il nostro metodo porta a risultati più rapidi e precisi”, hanno detto.

Oltretutto, l’algoritmo è particolarmente migliore nell’individuare volti quando sono capovolti, un aspetto che altri approcci non hanno ancora perfezionato. Secondo il team, l’algoritmo potrebbe essere migliorato ulteriormente utilizzando dataset che includano più volti a testa in giù. “In futuro utilizzeremo strategie di campionamento migliori e tecniche di potenziamento dei dati più sofisticate per migliorare ulteriormente le prestazioni del nostro metodo nel rilevare volti coperti o ruotati”.

Si tratta di un lavoro interessante che dimostra la rapidità con la quale si sta evolvendo il riconoscimento facciale computerizzato. La tecnica della rete neurale convoluzionale profonda ha appena qualche anno di età, ma ha già portato a importanti progressi nel riconoscimento di oggetti e volti.

La grande promessa di questo genere di algoritmo sta nella ricerca delle immagini.

Al momento, si tratta di una caccia dirette alle immagini scattate in un luogo o in un momento specifico. è però difficile riuscire a trovare immagini di persone specifiche. Questo passaggio guarda proprio in quella direzione, e non è difficile immaginare che presto una funzione del genere diventerà una cosa comune. Quel giorno, il mondo diventerà un luogo molto più piccolo. Non solo le fotografie, ma anche le vastità di immagini, video e CCTV che sono state raccolte nel corso della storia, potranno essere ricercate.

In un modo o nell’altro, questa tecnologia avrà un potere enorme.

Per ulteriori informazioni: arxiv.org/abs/1502.02766.

(MO)