L'intelligenza artificiale potrebbe rendere il doppiaggio con sincronizzazione labiale un ricordo del passato

Il sistema consente ai montatori di film di cambiare l'espressione e la posizione della testa di un attore al termine delle riprese. Credito:Università di Bath

I ricercatori hanno sviluppato un sistema che utilizza l'intelligenza artificiale in grado di modificare le espressioni facciali degli attori per abbinare accuratamente le voci doppiate, risparmiando tempo e riducendo i costi per l'industria cinematografica. Può essere utilizzato anche per correggere lo sguardo e la posa della testa in videoconferenza, e consente nuove possibilità per la postproduzione video e gli effetti visivi.

La tecnica è stata sviluppata da un team internazionale guidato da un gruppo del Max Planck Institute for Informatics e comprendente ricercatori dell'Università di Bath, tecnico, TU Monaco di Baviera e l'Università di Stanford. Il lavoro, chiamato Ritratti video profondi, è stato presentato per la prima volta alla conferenza SIGGRAPH 2018 a Vancouver il 16 agosto.

A differenza dei metodi precedenti che si concentrano solo sui movimenti dell'interno del viso, I Deep Video Portraits possono anche animare l'intero viso compresi gli occhi, sopracciglia, e la posizione della testa nei video, utilizzando i controlli noti dall'animazione del viso in computer grafica. Può persino sintetizzare uno sfondo video statico plausibile se la testa viene spostata.

Hyeongwoo Kim del Max Planck Institute for Informatics spiega:"Funziona utilizzando l'acquisizione delle prestazioni del viso 3D basata su modelli per registrare i movimenti dettagliati delle sopracciglia, bocca, naso, e la posizione della testa del doppiatore in un video. Quindi traspone questi movimenti sull'attore "bersaglio" nel film per sincronizzare accuratamente le labbra e i movimenti del viso con il nuovo audio".

La ricerca è attualmente in fase di proof-of-concept e deve ancora funzionare in tempo reale, tuttavia, i ricercatori prevedono che l'approccio potrebbe fare davvero la differenza per l'industria dell'intrattenimento visivo.

Professor Christian Theobalt, dell'Istituto Max Planck per l'informatica, ha dichiarato:"Nonostante l'ampia manipolazione della post-produzione, il doppiaggio di film in lingue straniere presenta sempre una discrepanza tra l'attore sullo schermo e la voce doppiata.

"Il nostro nuovo approccio Deep Video Portrait ci consente di modificare l'aspetto di un attore bersaglio trasferendo la posa della testa, espressioni facciali, e il movimento degli occhi con un alto livello di realismo."

Coautore del documento, Dott. Christian Richardt, dal centro di ricerca sul motion capture CAMERA dell'Università di Bath, aggiunge:"Questa tecnica potrebbe essere utilizzata anche per la post-produzione nell'industria cinematografica, dove l'editing in computer grafica dei volti è già ampiamente utilizzato nei film di oggi".

Un ottimo esempio è "Il curioso caso di Benjamin Button", in cui il volto di Brad Pitt è stato sostituito con una versione modificata della computer grafica in quasi ogni fotogramma del film. Questo lavoro rimane un processo che richiede molto tempo, spesso richiedono molte settimane di lavoro da parte di artisti preparati.

"Deep Video Portraits mostra come un tale effetto visivo potrebbe essere creato con meno sforzo in futuro. Con il nostro approccio anche il posizionamento della testa di un attore e la sua espressione facciale potrebbero essere facilmente modificati per cambiare l'angolazione della telecamera o cambiare leggermente l'inquadratura di una scena per raccontare meglio la storia".

Inoltre, questo nuovo approccio può essere utilizzato anche in altre applicazioni, che gli autori mostrano sul sito web del loro progetto, ad esempio nelle teleconferenze video e VR, dove può essere utilizzato per correggere lo sguardo e la posa della testa in modo da ottenere un ambiente di conversazione più naturale. Il software consente molte nuove applicazioni creative nella produzione di media visivi, ma gli autori sono anche consapevoli del potenziale uso improprio della moderna tecnologia di editing video.

Dott. Michael Zollhöfer, dell'Università di Stanford, spiega:"L'industria dei media ha ritoccato le foto con software di fotoritocco per molti anni, il che significa che la maggior parte di noi ha imparato a prendere ciò che vediamo nelle foto con le pinze. Con una tecnologia di editing video in continua evoluzione, dobbiamo anche iniziare a essere più critici sui contenuti video che consumiamo ogni giorno, soprattutto se non ci sono prove dell'origine. Riteniamo che il campo della medicina legale digitale dovrebbe e riceverà molta più attenzione in futuro per sviluppare approcci in grado di dimostrare automaticamente l'autenticità di un videoclip. Ciò porterà ad approcci sempre migliori in grado di individuare tali modifiche anche se noi umani potremmo non essere in grado di individuarle con i nostri occhi".

Per affrontare questo, il team di ricerca sta utilizzando la stessa tecnologia per sviluppare in tandem reti neurali addestrate a rilevare video generati o modificati sinteticamente ad alta precisione per facilitare l'individuazione dei falsi. Gli autori non hanno intenzione di rendere il software disponibile pubblicamente, ma affermano che qualsiasi software che implementa i numerosi casi d'uso creativo dovrebbe includere schemi di filigrana per contrassegnare chiaramente le modifiche.

Robot come strumenti e partner nella riabilitazione

Quando ok non è ok:il presentatore della sicurezza parla di clic sintetici

Elettronica