Credito:Suan Moo, Unsplash.com
Ricercatori del Karlsruhe Institute of Technology (KIT), in Germania, hanno recentemente applicato l'apprendimento automatico multi-task alla traduzione vocale neurale a bassa latenza. Il loro studio, che è stato pre-pubblicato su ArXiv , affronta alcune delle limitazioni delle tecniche di traduzione automatica neurale (NMT) esistenti.
I progressi nel campo dell'apprendimento profondo hanno portato a miglioramenti significativi nel linguaggio umano e nella traduzione del testo. NMT, un approccio ampiamente utilizzato alla traduzione automatica, addestra una grande rete neurale per leggere una frase e fornire una traduzione accurata, generalmente modellando intere frasi in un modello integrato.
Rispetto agli approcci tradizionali, come la traduzione automatica basata su regole o statistica, NMT in genere ottiene traduzioni più fluide, sia per il parlato che per il testo scritto. Sebbene possa catturare in modo efficace dipendenze più complesse tra le lingue di origine e di destinazione, per funzionare sempre bene, questo approccio richiede notevoli quantità di dati di addestramento.
"Quando si applica la traduzione parziale della frase ai sistemi di traduzione automatica neurale, incontriamo il problema che il sistema MT è stato addestrato solo su frasi complete, e quindi il decodificatore è distorto per generare frasi di destinazione complete, " hanno scritto i ricercatori nel loro articolo. "Quando si ricevono input che sono frasi parziali, non è garantito che gli output della traduzione corrispondano esattamente al contenuto dell'input. Osserviamo che la traduzione è spesso "fantasticata" dal modello per essere una frase completa, come sarebbe avvenuto nei dati di addestramento."
In altri casi, il decoder può cadere in uno stato di sovragenerazione, ripetendo l'ultima parola che gli è stata data più volte nella sua traduzione. Per affrontare questi problemi, i ricercatori del KIT si sono concentrati sulla traduzione vocale nei casi in cui un NMT deve fornire una traduzione iniziale in tempo reale, prima che un oratore abbia terminato la sua frase.
"In questo lavoro, miriamo a porre rimedio al problema della traduzione parziale della frase in NMT, " hanno scritto i ricercatori. "Idealmente, vogliamo un modello in grado di generare traduzioni appropriate per frasi incomplete, senza alcun compromesso durante altri casi d'uso di traduzione."
Poiché i set di dati con frasi parziali non sono prontamente disponibili, i ricercatori hanno creato dati artificiali che potrebbero essere utilizzati nel processo di formazione. Hanno addestrato la rete utilizzando l'apprendimento multi-task, una strategia di deep learning che è stata spesso utilizzata nell'elaborazione del linguaggio naturale (PNL) per addestrare un singolo modello per compiti diversi, riducendo le spese e migliorandone le prestazioni.
Il loro studio ha ottenuto risultati promettenti, suggerendo che i sistemi NMT potrebbero essere adattati per funzionare bene anche nei casi in cui non sono disponibili dati specifici per attività, senza perdere le prestazioni nel compito originale per cui sono stati addestrati. "Per prima cosa abbiamo dimostrato che semplici tecniche per generare dati artificiali sono efficaci per ottenere risultati più fluidi con meno correzioni, " hanno concluso i ricercatori nel loro articolo. "Abbiamo anche illustrato che l'apprendimento multi-task può aiutare ad adattare il modello alla nuova condizione di inferenza, senza perdere la capacità originale di tradurre frasi complete."
Il loro adattamento di NMT ha ottenuto traduzioni di alta qualità a bassa latenza, riducendo al minimo il numero di parole corrette del 45 percento. Nel futuro, il loro studio potrebbe avere implicazioni pratiche significative, contribuendo a sviluppare strumenti migliori per la traduzione vocale in tempo reale.
© 2018 Tech Xplore