Il sistema software video sincronizza le labbra con altre lingue
Mentre gli attuali sistemi di traduzione possono generare solo output vocale tradotto o sottotitoli testuali per i contenuti video, il protocollo di traduzione automatica faccia a faccia può sincronizzare il visual, quindi lo stile della voce e il movimento delle labbra corrispondono alla lingua di destinazione. Prajwal Renukanand
Un team di ricercatori in India ha ideato un sistema per tradurre le parole in una lingua diversa e far sembrare che le labbra di chi parla si muovano in sincronia con quella lingua.
Traduzione automatica faccia a faccia, come descritto in questo documento di ottobre 2019, è un progresso rispetto alla traduzione da testo a testo o da sintesi vocale, perché non solo traduce il discorso, ma fornisce anche un'immagine facciale sincronizzata con le labbra.
Per capire come funziona, guarda il video dimostrativo qui sotto, creato dai ricercatori. Al segno delle 6:38, vedrai un videoclip della defunta principessa Diana in un'intervista del 1995 con il giornalista Martin Bashir, spiegando, "Vorrei essere la regina dei cuori delle persone, nel cuore delle persone, ma non mi vedo come una regina di questo paese".
Un momento dopo, la vedrai pronunciare la stessa citazione in hindi - con le labbra che si muovono, come se parlasse davvero quella lingua.
"Comunicare efficacemente attraverso le barriere linguistiche è sempre stata una grande aspirazione per gli esseri umani in tutto il mondo, " Prajwal K.R., uno studente laureato in informatica presso l'International Institute of Information Technology di Hyderabad, India, spiega via mail. È l'autore principale del giornale, insieme al suo collega Rudrabha Mukhopadhyay.
"Oggi, Internet è pieno di video di volti parlanti:YouTube (300 ore caricate al giorno), lezioni on line, videoconferenze, film, Programmi TV e così via, " Prajval, che porta il suo nome di battesimo, scrive. "Gli attuali sistemi di traduzione possono solo generare un output vocale tradotto o sottotitoli testuali per tali contenuti video. Non gestiscono la componente visiva. Di conseguenza, il discorso tradotto quando sovrapposto al video, i movimenti delle labbra non sarebbero sincronizzati con l'audio.
"Così, ci basiamo sui sistemi di traduzione vocale e proponiamo una pipeline che può prendere un video di una persona che parla in una lingua di partenza e produrre un video dello stesso oratore che parla in una lingua di destinazione in modo tale che lo stile della voce e i movimenti delle labbra corrispondano il discorso della lingua di destinazione, " Prajwal dice. "Così facendo, il sistema di traduzione diventa olistico, e come mostrato dalle nostre valutazioni umane in questo articolo, migliora significativamente l'esperienza dell'utente nella creazione e nel consumo di contenuti audiovisivi tradotti."
La traduzione faccia a faccia richiede una serie di operazioni complesse. "Dato un video di una persona che parla, abbiamo due principali flussi di informazioni da tradurre:le informazioni visive e quelle vocali, " spiega. Lo fanno in diversi passaggi principali. "Il sistema prima trascrive le frasi nel discorso utilizzando il riconoscimento vocale automatico (ASR). Questa è la stessa tecnologia utilizzata negli assistenti vocali (Google Assistant, ad esempio) nei dispositivi mobili." Successivamente, le frasi trascritte vengono tradotte nella lingua desiderata utilizzando modelli di traduzione automatica neurale, e quindi la traduzione viene convertita in parole pronunciate con un sintetizzatore di sintesi vocale, la stessa tecnologia utilizzata dagli assistenti digitali.
Finalmente, una tecnologia chiamata LipGAN corregge i movimenti delle labbra nel video originale in modo che corrispondano al discorso tradotto.