Credito:Oticon
Per le persone con problemi di udito, può essere molto difficile capire e separare le voci in ambienti rumorosi. Questo problema potrebbe presto diventare storia grazie a un nuovo algoritmo innovativo progettato per riconoscere e separare le voci in modo efficiente in ambienti sonori sconosciuti.
Le persone con un udito normale di solito sono in grado di capirsi senza sforzo quando comunicano in ambienti rumorosi. Però, per le persone con problemi di udito, è molto difficile capire e separare le voci in ambienti rumorosi, e un apparecchio acustico può davvero aiutare. Ma c'è ancora molta strada da fare per quanto riguarda l'elaborazione generale del suono negli apparecchi acustici, spiega Morten Kolbæk:
"Quando lo scenario è noto in anticipo, come in alcune configurazioni di test clinici, gli algoritmi esistenti possono già battere le prestazioni umane quando si tratta di riconoscere e distinguere gli oratori. Però, in normali situazioni di ascolto senza alcuna conoscenza preventiva, il cervello uditivo umano rimane la macchina migliore."
Ma questo è esattamente ciò per cui Morten Kolbæk ha lavorato per cambiare con il suo nuovo algoritmo.
"A causa della sua capacità di funzionare in ambienti sconosciuti con voci sconosciute, l'applicabilità di questo algoritmo è molto più forte di quella che abbiamo visto con la tecnologia precedente. È un importante passo avanti quando si tratta di risolvere situazioni di ascolto impegnative nella vita di tutti i giorni, " dice uno dei due supervisori di Morten Kolbæk, Jesper Jensen, Ricercatore senior presso Oticon e professore presso il Center for Acoustic Signal Processing Research (CASPR) presso AAU.
Professor Zheng-Hua Tan, che è anche affiliato al CASPR e supervisore del progetto, concorda sulle maggiori potenzialità dell'algoritmo all'interno della ricerca sonora.
"La chiave del successo di questo algoritmo è la sua capacità di apprendere dai dati e quindi costruire potenti modelli statistici in grado di rappresentare situazioni di ascolto complesse. Questo porta a soluzioni che funzionano molto bene anche in situazioni di ascolto nuove e sconosciute, " spiega Zheng-Hua Tan.
Riduzione del rumore e separazione del parlato
Nello specifico, Il dottorato di ricerca di Morten Kolbæk. progetto ha affrontato due scenari di ascolto diversi ma conosciuti.
La prima traccia si propone di risolvere le sfide delle conversazioni one-to-one in spazi rumorosi come le cabine delle auto. Gli utenti di apparecchi acustici affrontano regolarmente tali sfide.
"Per risolverli, abbiamo sviluppato algoritmi in grado di amplificare il suono dell'altoparlante riducendo significativamente il rumore senza alcuna conoscenza preliminare della situazione di ascolto. Gli attuali apparecchi acustici sono pre-programmati per una serie di situazioni diverse, ma nella vita reale, l'ambiente è in continua evoluzione e richiede un apparecchio acustico in grado di leggere istantaneamente la situazione specifica, " spiega Morten Kolbæk.
La seconda traccia del progetto ruota attorno alla separazione del parlato. Questo scenario coinvolge diversi oratori, e l'utente dell'apparecchio acustico potrebbe essere interessato ad ascoltarne alcuni o tutti. La soluzione è un algoritmo in grado di separare le voci riducendo il rumore. Questa traccia può essere considerata un'estensione della prima traccia, ma ora con due o più voci.
"Puoi dire che Morten l'ha capito modificando alcune cose qua e là, l'algoritmo funziona con diversi altoparlanti sconosciuti in ambienti rumorosi. Entrambi i percorsi di ricerca di Morten sono significativi e hanno attirato molta attenzione, "dice Jesper Jensen.
Reti neurali profonde
Il metodo utilizzato nella creazione degli algoritmi è chiamato "apprendimento profondo, " che rientra nella categoria del machine learning. Più specificamente, Morten Kolbæk ha lavorato con reti neurali profonde, un tipo di algoritmo che alleni fornendogli esempi dei segnali che incontrerà nel mondo reale.
"Se, ad esempio, parliamo di discorso nel rumore, si fornisce all'algoritmo un esempio di voce in un ambiente rumoroso e uno di voce senza rumore. In questo modo, l'algoritmo apprende come elaborare il segnale rumoroso per ottenere un segnale vocale chiaro. Alimenti la rete con migliaia di esempi, e durante questo processo, imparerà come elaborare una data voce in un ambiente realistico, " spiega Jesper Jensen.
"Il potere del deep learning deriva dalla sua struttura gerarchica che è in grado di trasformare segnali vocali rumorosi o misti in voci pulite o separate attraverso l'elaborazione strato per strato. L'uso diffuso del deep learning oggi è dovuto a tre fattori principali:sempre- aumento della potenza di calcolo, quantità crescente di big data per l'addestramento di algoritmi e nuovi metodi per l'addestramento di reti neurali profonde, " dice Zheng-Hua Tan.
Un computer dietro l'orecchio
Una cosa è sviluppare l'algoritmo, un altro è farlo funzionare in un vero apparecchio acustico. Attualmente, L'algoritmo di Morten Kolbæk per la separazione del parlato funziona solo su scala più ampia.
"Quando si tratta di apparecchi acustici, la sfida è sempre quella di far funzionare la tecnologia su un piccolo computer dietro l'orecchio. E proprio ora, L'algoritmo di Morten richiede troppo spazio per questo. Anche se l'algoritmo di Mortens può separare diverse voci sconosciute l'una dall'altra, non è in grado di scegliere quale voce presentare all'utente dell'apparecchio acustico. Quindi ci sono alcuni problemi pratici che dobbiamo risolvere prima di poterlo introdurre in una soluzione per apparecchi acustici. Però, la cosa più importante è che questi problemi ora sembrano risolvibili".
Il fenomeno dei cocktail party
Le persone con un udito normale sono spesso in grado di concentrarsi su un oratore di interesse, anche in situazioni acusticamente difficili in cui altre persone parlano contemporaneamente. Conosciuto come il fenomeno dei cocktail party, il problema ha generato un'area di ricerca molto attiva su come il cervello umano sia in grado di risolvere così bene questo problema. Con questo dottorato progetto, siamo un passo avanti verso la risoluzione di questo problema, Jesper Jensen spiega:
"A volte si sente dire che il problema del cocktail party è stato risolto. Non è ancora così. Se l'ambiente e le voci sono completamente sconosciuti, come spesso accade nel mondo reale, la tecnologia attuale semplicemente non può eguagliare il cervello umano che funziona molto bene in ambienti sconosciuti. Ma l'algoritmo di Morten è un passo importante per far funzionare le macchine e aiutare le persone con udito normale e quelle con ipoacusia in tali ambienti, " lui dice.