La prossima generazione di apparecchi acustici potrebbe leggere le labbra attraverso le maschere

Illustrazione concettuale del proposto framework di lettura labiale. Il framework utilizza le tecnologie Wi-Fi e radar come abilitanti della lettura labiale basata sul rilevamento RF. Un set di dati composto dalle vocali A, E, I, O, U e vuote (labbra statiche/chiuse) viene raccolto utilizzando entrambe le tecnologie, con una maschera facciale. I dati raccolti vengono utilizzati per addestrare modelli ML e DL. Credito:Comunicazioni sulla natura (2022). DOI:10.1038/41467-022-32231-1. https://www.nature.com/articles/s41467-022-32231-1

Un nuovo sistema in grado di leggere le labbra con notevole precisione anche quando i relatori indossano maschere facciali potrebbe aiutare a creare una nuova generazione di apparecchi acustici.

Un team internazionale di ingegneri e scienziati informatici ha sviluppato la tecnologia, che accoppia per la prima volta il rilevamento a radiofrequenza e l'intelligenza artificiale per identificare i movimenti delle labbra.

Il sistema, se integrato con la tecnologia degli apparecchi acustici convenzionali, potrebbe aiutare a contrastare l'"effetto cocktail party", un difetto comune degli apparecchi acustici tradizionali.

Attualmente, gli apparecchi acustici assistono le persone con problemi di udito amplificando tutti i suoni ambientali che li circondano, il che può essere utile in molti aspetti della vita quotidiana.

Tuttavia, in situazioni rumorose come i cocktail party, l'ampio spettro di amplificazione degli apparecchi acustici può rendere difficile per gli utenti concentrarsi su suoni specifici, come una conversazione con una determinata persona.

Una possibile soluzione all'effetto cocktail party è quella di realizzare apparecchi acustici "intelligenti", che combinano l'amplificazione audio convenzionale con un secondo dispositivo per raccogliere dati aggiuntivi per prestazioni migliori.

Mentre altri ricercatori hanno avuto successo nell'utilizzare le telecamere per facilitare la lettura delle labbra, la raccolta di filmati di persone senza il loro esplicito consenso solleva preoccupazioni per la privacy individuale. Le telecamere non sono inoltre in grado di leggere le labbra attraverso le maschere, una sfida quotidiana per le persone che indossano mascherine per scopi culturali o religiosi e un problema più ampio nell'era del COVID-19.

In un nuovo articolo pubblicato oggi sulla rivista Nature Communications , il team guidato dall'Università di Glasgow illustra come ha deciso di sfruttare la tecnologia di rilevamento all'avanguardia per leggere le labbra. Il loro sistema preserva la privacy raccogliendo solo dati in radiofrequenza, senza filmati di accompagnamento.

Per sviluppare il sistema, i ricercatori hanno chiesto a volontari maschi e femmine di ripetere i cinque suoni vocalici (A, E, I, O e U) prima senza maschera e poi indossando una maschera chirurgica.

Mentre i volontari ripetevano i suoni vocalici, i loro volti sono stati scansionati utilizzando segnali a radiofrequenza sia da un sensore radar dedicato che da un trasmettitore wifi. Anche i loro volti sono stati scansionati mentre le loro labbra sono rimaste ferme.

Quindi, i 3.600 campioni di dati raccolti durante le scansioni sono stati utilizzati per "insegnare" agli algoritmi di machine learning e deep learning come riconoscere i caratteristici movimenti delle labbra e della bocca associati a ciascun suono vocale.

Poiché i segnali a radiofrequenza possono passare facilmente attraverso le maschere dei volontari, gli algoritmi potrebbero anche imparare a leggere la formazione vocale degli utenti mascherati.

Il sistema si è dimostrato in grado di leggere correttamente le labbra dei volontari per la maggior parte del tempo. I dati Wi-Fi sono stati interpretati correttamente dagli algoritmi di apprendimento fino al 95% delle volte per le labbra non mascherate e all'80% per quelle mascherate. Nel frattempo, i dati radar sono stati interpretati correttamente fino al 91% senza maschera e l'83% delle volte con maschera.

Il dottor Qammer Abbasi, della James Watt School of Engineering dell'Università di Glasgow, è l'autore principale del documento. Ha affermato:"Circa il 5% della popolazione mondiale, circa 430 milioni di persone, ha una sorta di disabilità uditiva.

"Hearing aids have provided transformative benefits for many hearing-impaired people. A new generation of technology which collects a wide spectrum of data to augment and enhance the amplification of sound could be another major step in improving hearing-impaired people's quality of life.

"With this research, we have shown that radio-frequency signals can be used to accurately read vowel sounds on people's lips, even when their mouths are covered. While the results of lip-reading with radar signals are slightly more accurate, the Wi-Fi signals also demonstrated impressive accuracy.

"Given the ubiquity and affordability of Wi-Fi technologies, the results are highly encouraging which suggests that this technique has value both as a standalone technology and as a component in future multimodal hearing aids."

Professor Muhammad Imran, head of the University of Glasgow's Communications, Sensing and Imaging research group and a co-author of the paper, added, "This technology is an outcome from two research projects funded by the Engineering and Physical Sciences Research Council (EPSRC), called COG-MHEAR and QUEST.

"Both aim to find new methods of creating the next generation of health care devices, and this development will play a major role in supporting that goal."

The team's paper, titled "Pushing the Limits of Remote RF Sensing by Reading Lips Under the Face Mask," is published in Nature Communications . + Esplora ulteriormente