I ricercatori propongono un modello nuovo e più efficace per il riconoscimento vocale automatico

Il quadro fonetico-semantico pre-formazione (PSP) utilizza l'apprendimento del "curriculum sensibile al rumore" per migliorare efficacemente le prestazioni dell'ASR in ambienti rumorosi. integrando riscaldamento, apprendimento auto-supervisionato e messa a punto. Credito:Ricerca sull'intelligenza artificiale CAAI , Tsinghua University Press

Assistenti vocali popolari come Siri e Amazon Alexa hanno introdotto il riconoscimento vocale automatico (ASR) al grande pubblico. Nonostante decenni di lavoro, i modelli ASR lottano con coerenza e affidabilità, specialmente in ambienti rumorosi. I ricercatori cinesi hanno sviluppato un framework che migliora efficacemente le prestazioni dell'ASR per il caos degli ambienti acustici quotidiani.

I ricercatori dell'Università di scienza e tecnologia di Hong Kong e WeBank hanno proposto un nuovo framework, il pre-training fonetico-semantico (PSP) e hanno dimostrato la solidità del loro nuovo modello rispetto a set di dati vocali sintetici altamente rumorosi.

Il loro studio è stato pubblicato su CAAI Artificial Intelligence Research il 28 agosto.

"La robustezza è una sfida di lunga data per ASR", ha affermato Xueyang Wu del Dipartimento di Informatica e Ingegneria dell'Università di Scienza e Tecnologia di Hong Kong. "Vogliamo aumentare la robustezza del sistema ASR cinese con un basso costo."

ASR utilizza l'apprendimento automatico e altre tecniche di intelligenza artificiale per tradurre automaticamente il parlato in testo per usi come sistemi ad attivazione vocale e software di trascrizione. Ma le nuove applicazioni incentrate sui consumatori richiedono sempre più che il riconoscimento vocale funzioni meglio, gestisca più lingue e accenti e funzioni in modo più affidabile in situazioni di vita reale come le videoconferenze e le interviste dal vivo.

Tradizionalmente, l'addestramento dei modelli acustici e linguistici che compongono l'ASR richiede grandi quantità di dati specifici sul rumore, che possono essere proibitivi in termini di tempo e costi.

Il modello acustico (AM) trasforma le parole in "telefoni", che sono sequenze di suoni di base. Il modello linguistico (LM) decodifica i telefoni in frasi in linguaggio naturale, di solito con un processo in due fasi:un LM veloce ma relativamente debole genera una serie di frasi candidate e un LM potente ma computazionalmente costoso seleziona la frase migliore tra i candidati.

"I modelli di apprendimento tradizionali non sono robusti contro i rumorosi output dei modelli acustici, specialmente per le parole polifoniche cinesi con pronuncia identica", ha detto Wu. "Se il primo passaggio della decodifica del modello di apprendimento non è corretto, è estremamente difficile recuperare il secondo passaggio."

Il quadro PSP recentemente proposto semplifica il recupero di parole classificate erroneamente. Pre-addestrando un modello che traduce gli output dell'AM direttamente in una frase insieme alle informazioni di contesto complete, i ricercatori possono aiutare il LM a riprendersi in modo efficiente dagli output rumorosi dell'AM.

Il framework PSP consente al modello di migliorare attraverso un regime di pre-formazione chiamato curriculum consapevole del rumore che introduce gradualmente nuove competenze, iniziando facilmente e passando gradualmente a compiti più complessi.

"La parte più cruciale del nostro metodo proposto, Noise-aware Curriculum Learning, simula il meccanismo di come gli esseri umani riconoscono una frase da un discorso rumoroso", ha detto Wu.

Il riscaldamento è la prima fase, in cui i ricercatori pre-addestrano un trasduttore da telefono a parola su una sequenza telefonica pulita, che viene tradotta solo da dati di testo senza etichetta, per ridurre il tempo di annotazione. Questa fase "riscalda" il modello, inizializzando i parametri di base per mappare le sequenze telefoniche alle parole.

Nella seconda fase, l'apprendimento auto-supervisionato, il trasduttore apprende da dati più complessi generati da tecniche e funzioni di addestramento auto-supervisionato. Infine, il risultante trasduttore da telefono a parola viene messo a punto con i dati vocali del mondo reale.

I ricercatori hanno dimostrato sperimentalmente l'efficacia della loro struttura su due set di dati di vita reale raccolti da scenari industriali e rumore sintetico. I risultati hanno mostrato che il framework PSP migliora efficacemente la pipeline ASR tradizionale, riducendo i tassi di errore relativo dei caratteri del 28,63% per il primo set di dati e del 26,38% per il secondo.

Nelle fasi successive, i ricercatori studieranno metodi di pre-allenamento PSP più efficaci con set di dati spaiati più ampi, cercando di massimizzare l'efficacia del pre-allenamento per LM rumorosi. + Esplora ulteriormente

Utilizzo dell'apprendimento multitasking per la traduzione vocale a bassa latenza

Street View immersivo di Google potrebbe essere un assaggio del metaverso

Il chatbot Metas AI odia Mark Zuckerberg, ma perché si preoccupa meno del razzismo?

Elettronica

Come funziona una bici a resistenza magnetica?

Colti in flagrante:le telecamere automatiche individueranno gli automobilisti che utilizzano il cellulare, ma a che prezzo?

La modifica del tipo di incisione al silicio riduce i costi dell'energia solare di oltre il 10 percento

Scienza

Batterie ricaricabili al potassio:uno sforzo per un ambiente più sostenibile

Le radici della disuguaglianza:i ricercatori tracciano un grafico dell'aumento della disuguaglianza attraverso i millenni

L'interruttore molecolare rileva i metalli nell'ambiente