In un processo di ricostruzione facciale 3D sviluppato presso la Carnegie Mellon University, video su smartphone di una persona, sinistra, viene analizzato per produrre un modello imperfetto del viso, mezzo. Il deep learning viene quindi combinato con le tradizionali tecniche di visione artificiale per completare la ricostruzione, Giusto. Credito:Carnegie Mellon University
Normalmente, ci vogliono attrezzature costose e competenze per creare un'accurata ricostruzione 3D del volto di qualcuno che sia realistica e non inquietante. Ora, I ricercatori della Carnegie Mellon University hanno realizzato l'impresa utilizzando video registrati su un normale smartphone.
L'utilizzo di uno smartphone per riprendere un video continuo della parte anteriore e dei lati del viso genera una densa nuvola di dati. Un processo in due fasi sviluppato dal Robotics Institute di CMU utilizza tali dati, con l'aiuto di algoritmi di deep learning, per costruire una ricostruzione digitale del viso. Gli esperimenti del team mostrano che il loro metodo può raggiungere una precisione inferiore al millimetro, superando altri processi basati su fotocamera.
Un volto digitale potrebbe essere utilizzato per costruire un avatar per il gioco o per la realtà virtuale o aumentata, e potrebbe essere utilizzato anche in animazione, identificazione biometrica e persino procedure mediche. Un accurato rendering 3D del viso potrebbe anche essere utile nella costruzione di maschere chirurgiche o respiratori personalizzati.
"Costruire una ricostruzione 3D del viso è stato un problema aperto nella computer vision e nella grafica perché le persone sono molto sensibili all'aspetto dei tratti del viso, " ha detto Simon Lucey, un professore di ricerca associato presso l'Istituto di Robotica. "Anche lievi anomalie nelle ricostruzioni possono rendere il risultato finale irrealistico".
scanner laser, la luce strutturata e le configurazioni dello studio multicamera possono produrre scansioni del viso altamente accurate, ma questi sensori specializzati sono proibitivi per la maggior parte delle applicazioni. Il metodo di nuova concezione della CMU, però, richiede solo uno smartphone.
Il metodo, che Lucey ha sviluppato con gli studenti del master Shubham Agrawal e Anuj Pahuja, è stato presentato all'inizio di marzo alla IEEE Winter Conference on Applications of Computer Vision (WACV) a Snowmass, Colorado. Inizia con la ripresa di 15-20 secondi di video. In questo caso, i ricercatori hanno utilizzato un iPhone X in modalità slow motion.
"L'alto frame rate del rallentatore è una delle cose chiave per il nostro metodo perché genera una nuvola di punti densa, " ha detto Luce.
I ricercatori utilizzano quindi una tecnica comunemente usata chiamata localizzazione e mappatura simultanea visiva (SLAM). Visual SLAM triangola i punti su una superficie per calcolarne la forma, utilizzando allo stesso tempo tali informazioni per determinare la posizione della telecamera. Questo crea una geometria iniziale del viso, ma i dati mancanti lasciano delle lacune nel modello.
Nella seconda fase di questo processo, i ricercatori lavorano per colmare queste lacune, prima utilizzando algoritmi di deep learning. Il deep learning è utilizzato in modo limitato, tuttavia:identifica il profilo della persona e punti di riferimento come orecchie, occhi e naso. Le tecniche di visione artificiale classiche vengono quindi utilizzate per colmare le lacune.
"Il deep learning è uno strumento potente che usiamo ogni giorno, " ha detto Lucey. "Ma il deep learning ha la tendenza a memorizzare soluzioni, " che va contro gli sforzi per includere dettagli distintivi del viso. "Se usi questi algoritmi solo per trovare i punti di riferimento, puoi usare i metodi classici per colmare le lacune molto più facilmente."
Il metodo non è necessariamente rapido; ci sono voluti 30-40 minuti di tempo di elaborazione. Ma l'intero processo può essere eseguito su uno smartphone.
Oltre alle ricostruzioni facciali, i metodi del team CMU potrebbero anche essere impiegati per catturare la geometria di quasi tutti gli oggetti, ha detto Lucey. Le ricostruzioni digitali di quegli oggetti possono quindi essere incorporate in animazioni o forse trasmesse su Internet a siti in cui gli oggetti potrebbero essere duplicati con stampanti 3D.