Skip to main content

Nelle registrazioni audio si riescono a isolare i singoli segnali vocali

di MIT Technology Review

Contesto: I microfoni collocati intorno a una sala per convegni producono registrazioni con voci sovrapposte e difficili da distinguere. In presenza di almeno un microfono per ogni persona parlante, gli algoritmi computerizzati riescono invece a isolare l’audio di ogni singolo persona che parla. Ma nel caso di un numero limitato di microfoni questo metodo non funziona e i problemi di sovrapposizione vocale persistono. Sistemi alternativi richiedono la creazione di un profilo delle singole voci di chi parla a partire da registrazioni precedenti o a partire da vincoli prestabiliti sui segnali audio. Francis Bach e Michael Jordan dell’Università della California, a Berkeley, hanno ora sviluppato un algoritmo che separa le voci di più parlanti in registrazioni effettuate con un solo microfono, senza la necessità di stabilire pre-condizioni o profili di chi parla.

Metodi e risultati: L’algoritmo di Bach e Jordan fa riferimento alle caratteristiche vocali che variano più di frequente tra le persone. I suoni registrati sono posizionati su uno spettrogramma, che mostra l’intensità sonora di varie frequenze nel tempo in un grafico bidimensionale. L’algoritmo di Bach e Jordan divide automaticamente lo spettrogramma tra i parlanti, presumendo che le parti dello spettrogramma appartengono probabilmente allo stesso parlante se sono vicine una all’altra nel grafico, variano in modo analogo nel tempo o sono simili nel tono e nel timbro. L’algoritmo è preparato su campioni in cui vengono mescolate alcune voci dapprima registrate separatamente; sulla base di queste istruzioni, l’algoritmo assegna un’importanza relativa a ogni caratteristica, per esempio il timbro o il ritmo, e applica le sue conoscenze alle nuove registrazioni. Finora Bach e Jordan sono riusciti a separare le voci sovrapposte in diverse registrazioni di coppie di parlanti. Anche se la separazione non è perfetta, il contenuto delle conversazioni appare abbastanza comprensibile.

Rilevanza: Storici, giornalisti, avvocati e altre figure professionali si affidano alle conversazioni registrate. Queste registrazioni sono spesso effettuate usando un singolo microfono, ma in presenza di voci multiple. Per rendere il mormorio più comprensibile, l’algoritmo di Bach e Jordan mira a rendere queste registrazioni più utili e semplici da analizzare. D’ora in poi chi ha necessità di registrare importanti conversazioni ed eventi non dovrà probabilmente fare uso di apparecchiature costose e ingombranti.

Fonte: Bach F.R. e Jordan M.I., 2005, Blind one-microphone speech separation: a spectral learning approach, “Advances in Neural Information Processing Systems” 17 (in stampa).