Skip to main content

Presentato a novembre un nuovo metodo di analisi automatica delle immagini video di una conversazione tra persone, basato sullo studio dei gesti degli interlocutori, e non del suono.

di Fonte IIT

Durante l'”InterHub 2011: Workshop on Interactive Human Behavior Analysis in Open or Public Spaces”, che si è tenuto ad Amsterdam nel mese di Novembre 2011, un gruppo di ricercatori coordinati da Vittorio Murino, direttore del Dipartimento di Pattern Analysis & Computer Vision (PAVIS) dell’Istituto Italiano di Tecnologia di Genova, ha presentato un nuovo metodo di analisi automatica delle immagini video di una conversazione tra persone, basato sullo studio dei gesti degli interlocutori, e non del suono.

Il lavoro, intitolato “Look at Who’s Talking: Voice Activity Detection by Automated Gesture Analysis”, ha dimostrato che il metodo permette di ricostruire, con un’accuratezza del 71%, la dinamica di una conversazione identificando le persone che parlano in base ai movimenti del loro corpo, in particolare della testa, delle braccia e del busto.

L’obiettivo dello studio è di fornire un metodo di analisi basato sui gesti, che sia alternativo e complementare al più consueto metodo di acquisizione e rilevazione vocale VAD (Voice Activity Detection), e che può trovare applicazione nel riconoscimento automatico di scene reali, come per esempio può succedere in situazioni di sorveglianza di luoghi pubblici, di monitoraggio di impianti industriali pericolosi, etc., là dove l’uso di microfoni è difficile o illegale per motivi di violazione di privacy. Sebbene il metodo non dia la possibilità di ricostruire il contenuto di una conversazione, si è mostrato in grado di ricostruire la dinamica di una conversazione, intesa come turn-organization, e di conseguenza, analizzando il comportamento degli interlocutori, potrà essere potenziato per rendere possibile l’individuazione di informazioni di tipo sociale, come per esempio il ruolo, la dominanza, la personalità e la presenza o meno di conflitti.

Tale metodo è stato provato in uno scenario di sorveglianza in cui era presente una sola telecamera, distante 7 metri da un gruppo di persone che conversavano in piedi. Analizzando il flusso di movimento di ogni persona, ossia valutando la postura del corpo e la direzione e quantità del moto delle braccia, è stato possibile correlare il segnale video con il segnale vocale, trovando una stima elevata di corrispondenza tra i tempi del parlato e quelli della gesticolazione.

SCENARI DI APERTURA:

Lo studio mostra come sia possibile estrarre informazioni relative a dati mancanti (in questo caso il parlato), a partire da evidenze disponibili (il video della conversazione), e apre prospettive nuove e critiche nel campo del riconoscimento automatico delle scene: da una parte, infatti, il nuovo metodo potenzia gli strumenti di sorveglianza rendendo predicibili fenomeni che non sono registrabili direttamente dai sensori, dall’altra esso mostra come le attuali misure di protezione della privacy (per esempio la limitazione nell’uso di microfoni in luoghi pubblici) potrebbero rivelarsi non più adeguate ed efficaci.