Mormorio decifrabile

Nelle registrazioni audio si riescono a isolare i singoli segnali vocali

di MIT Technology Review

Contesto: I microfoni collocati intorno a una sala per convegni producono registrazioni con voci sovrapposte e difficili da distinguere. In presenza di almeno un microfono per ogni persona parlante, gli algoritmi computerizzati riescono invece a isolare l’audio di ogni singolo persona che parla. Ma nel caso di un numero limitato di microfoni questo metodo non funziona e i problemi di sovrapposizione vocale persistono. Sistemi alternativi richiedono la creazione di un profilo delle singole voci di chi parla a partire da registrazioni precedenti o a partire da vincoli prestabiliti sui segnali audio. Francis Bach e Michael Jordan dell’Università della California, a Berkeley, hanno ora sviluppato un algoritmo che separa le voci di più parlanti in registrazioni effettuate con un solo microfono, senza la necessità di stabilire pre-condizioni o profili di chi parla.

Metodi e risultati: L’algoritmo di Bach e Jordan fa riferimento alle caratteristiche vocali che variano più di frequente tra le persone. I suoni registrati sono posizionati su uno spettrogramma, che mostra l’intensità sonora di varie frequenze nel tempo in un grafico bidimensionale. L’algoritmo di Bach e Jordan divide automaticamente lo spettrogramma tra i parlanti, presumendo che le parti dello spettrogramma appartengono probabilmente allo stesso parlante se sono vicine una all’altra nel grafico, variano in modo analogo nel tempo o sono simili nel tono e nel timbro. L’algoritmo è preparato su campioni in cui vengono mescolate alcune voci dapprima registrate separatamente; sulla base di queste istruzioni, l’algoritmo assegna un’importanza relativa a ogni caratteristica, per esempio il timbro o il ritmo, e applica le sue conoscenze alle nuove registrazioni. Finora Bach e Jordan sono riusciti a separare le voci sovrapposte in diverse registrazioni di coppie di parlanti. Anche se la separazione non è perfetta, il contenuto delle conversazioni appare abbastanza comprensibile.

Rilevanza: Storici, giornalisti, avvocati e altre figure professionali si affidano alle conversazioni registrate. Queste registrazioni sono spesso effettuate usando un singolo microfono, ma in presenza di voci multiple. Per rendere il mormorio più comprensibile, l’algoritmo di Bach e Jordan mira a rendere queste registrazioni più utili e semplici da analizzare. D’ora in poi chi ha necessità di registrare importanti conversazioni ed eventi non dovrà probabilmente fare uso di apparecchiature costose e ingombranti.

Fonte: Bach F.R. e Jordan M.I., 2005, Blind one-microphone speech separation: a spectral learning approach, “Advances in Neural Information Processing Systems” 17 (in stampa).

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

PsiQuantum intende costruire il più grande computer quantistico degli Stati Uniti

L’IA di Google DeepMind può ora risolvere complessi problemi matematici

L’IA addestrata sui rifiuti dell’IA produce rifiuti dell’IA.

Perché le aziende cinesi puntano sull’IA open-source

Nelle registrazioni audio si riescono a isolare i singoli segnali vocali

Social

Mormorio decifrabile

Nelle registrazioni audio si riescono a isolare i singoli segnali vocali

Related Posts