Potrebbero aiutare chi li indossa a concentrarsi su voci specifiche in ambienti rumorosi, come un amico in mezzo alla folla o una guida turistica in mezzo al frastuono urbano.
La vita moderna è rumorosa. Se non vi piace, le cuffie a cancellazione di rumore possono ridurre i suoni nell’ambiente circostante. Ma attutiscono i suoni in modo indiscriminato, per cui è facile che ci si perda qualcosa che si vuole ascoltare.
Un nuovo prototipo di sistema di intelligenza artificiale per queste cuffie mira a risolvere questo problema. Chiamato Target Speech Hearing, il sistema consente agli utenti di selezionare una persona la cui voce rimarrà udibile anche quando tutti gli altri suoni vengono cancellati.
Sebbene la tecnologia sia attualmente in fase di test concettuale, i suoi creatori affermano di essere in trattative per incorporarla negli auricolari a cancellazione di rumore delle marche più diffuse e di essere al lavoro per renderla disponibile per gli apparecchi acustici.
“Ascoltare persone specifiche è un aspetto fondamentale del nostro modo di comunicare e di interagire nel mondo con gli altri esseri umani”, spiega Shyam Gollakota, professore dell’Università di Washington, che ha lavorato al progetto. “Ma può essere davvero difficile, anche se non si hanno problemi di udito, concentrarsi su persone specifiche quando si tratta di situazioni rumorose”.
Gli stessi ricercatori sono riusciti in precedenza ad addestrare una rete neurale a riconoscere e filtrare alcuni suoni come il pianto dei bambini, il cinguettio degli uccelli o il suono degli allarmi. Ma separare le voci umane è una sfida più difficile, che richiede reti neurali molto più complesse.
Questa complessità è un problema quando i modelli di intelligenza artificiale devono funzionare in tempo reale in un paio di cuffie con potenza di calcolo e durata della batteria limitate. Per soddisfare tali vincoli, le reti neurali dovevano essere piccole ed efficienti dal punto di vista energetico. Il team ha quindi utilizzato una tecnica di compressione dell’intelligenza artificiale chiamata distillazione della conoscenza. Si trattava di prendere un enorme modello di intelligenza artificiale addestrato su milioni di voci (il “maestro”) e di addestrare un modello molto più piccolo (lo “studente”) a imitare il suo comportamento e le sue prestazioni con gli stessi standard.
Allo studente è stato poi insegnato a estrarre i modelli vocali di voci specifiche dal rumore circostante catturato da microfoni collegati a un paio di cuffie a cancellazione di rumore disponibili in commercio.
Per attivare il sistema Target Speech Hearing, chi lo indossa tiene premuto un pulsante sulle cuffie per alcuni secondi mentre è rivolto verso la persona da focalizzare. Durante questo processo di “iscrizione”, il sistema acquisisce un campione audio da entrambe le cuffie e utilizza questa registrazione per estrarre le caratteristiche vocali del parlante, anche in presenza di altri altoparlanti e rumori nelle vicinanze.
Queste caratteristiche vengono inserite in una seconda rete neurale in esecuzione su un computer a microcontrollore collegato alle cuffie tramite un cavo USB. Questa rete funziona continuamente, mantenendo la voce scelta separata da quelle di altre persone e riproducendola all’ascoltatore. Una volta che il sistema ha individuato lo speaker, continua a dare priorità alla voce di quella persona, anche se chi la indossa si gira. Più dati di addestramento il sistema acquisisce concentrandosi sulla voce di un interlocutore, più migliora la sua capacità di isolarla.
Per ora, il sistema è in grado di registrare con successo solo un interlocutore la cui voce è l’unica forte presente, ma il team mira a farlo funzionare anche quando la voce più forte in una particolare direzione non è quella dell’interlocutore target.
Individuare una singola voce in un ambiente rumoroso è molto difficile, afferma Sefik Emre Eskimez, ricercatore senior di Microsoft che si occupa di parlato e IA, ma che non ha lavorato alla ricerca. “So che le aziende vogliono farlo”, afferma. “Se ci riusciranno, si apriranno molte applicazioni, soprattutto in uno scenario di riunioni”.
Mentre la ricerca sulla separazione del parlato tende a essere più teorica che pratica, questo lavoro ha chiare applicazioni nel mondo reale, afferma Samuele Cornell, ricercatore del Language Technologies Institute della Carnegie Mellon University, che non ha lavorato alla ricerca. “Penso che sia un passo nella giusta direzione”, afferma Cornell. “È una boccata d’aria fresca”.