Sulla sinistra, La star di Saturday Night Live Kate McKinnon impersona Elizabeth Warren durante una scenetta, e a destra, La tecnologia deepfake di scambio di volti è stata utilizzata per sovrapporre il volto di Warren a quello di McKinnon. Credito:UC Berkeley foto di Stephen McNally
Dopo aver guardato ore di riprese video dell'ex presidente Barack Obama che tiene il suo discorso settimanale, Shruti Agarwal ha iniziato a notare alcune stranezze nel modo in cui parla Obama.
"Ogni volta che dice 'Ciao, tutti, ' muove la testa in alto a sinistra o a destra, e poi stringe le labbra, " disse Agarwal, uno studente laureato in informatica alla UC Berkeley.
Agarwal e il suo relatore di tesi Hany Farid, un professore in entrata nel Dipartimento di Ingegneria Elettrica e Informatica e nella School of Information dell'UC Berkeley, stanno correndo per sviluppare strumenti forensi digitali in grado di smascherare "deepfake, "Video iperrealistici generati dall'intelligenza artificiale di persone che fanno o dicono cose che non hanno mai fatto o detto.
Vedere questi schemi nel vero discorso di Obama ha dato ad Agarwal un'idea.
"Ho capito che c'è una cosa in comune tra tutti questi deepfake, e cioè che tendono a cambiare il modo in cui una persona parla, " ha detto Agarval.
L'intuizione di Agarwal ha portato lei e Farid a creare l'ultima arma nella guerra contro i deepfake:un nuovo approccio forense che può utilizzare le sottili caratteristiche di come una persona parla, come i distinti cenni con la testa e le labbra increspate di Obama, per riconoscere se un nuovo video di quella persona è reale o falso.
La loro tecnica, che Agarwal ha presentato questa settimana alla conferenza Computer Vision and Pattern Recognition a Long Beach, CIRCA, potrebbe essere utilizzato per aiutare i giornalisti, decisori politici, e il pubblico rimane un passo avanti rispetto ai video fasulli di leader politici o economici che potrebbero essere utilizzati per far oscillare un'elezione, destabilizzare un mercato finanziario, o addirittura incitare disordini civili e violenza.
"Immagina un mondo adesso, dove non solo le notizie che leggi possono o non possono essere reali, questo è il mondo in cui abbiamo vissuto negli ultimi due anni, dalle elezioni del 2016, ma dove le immagini e i video che vedi possono o non possono essere reali, " disse Farid, che inizia il suo incarico all'UC Berkeley il 1 luglio. "Non si tratta solo di questi ultimi progressi nella creazione di immagini e video falsi. È l'iniezione di queste tecniche in un ecosistema che sta già promuovendo notizie false, notizie sensazionali e teorie del complotto."
La nuova tecnica funziona perché tutte e tre le tecniche di deepfake più comuni, note come "sincronizzazione labiale, " "cambia faccia, " e " burattinaio, "— implicano la combinazione di audio e video da una fonte con un'immagine da un'altra fonte, creando una disconnessione che può essere scoperta da un attento spettatore o da un sofisticato modello di computer.
Usando la tecnica del "cambio faccia", Per esempio, si potrebbe creare un deepfake di Donald Trump sovrapponendo la faccia di Trump a un video di Alec Baldwin che impersona Trump, così che è quasi come se Baldwin indossasse una maschera di Trump attillata. Ma le espressioni facciali di Baldwin saranno ancora visibili attraverso la maschera, disse Agarwal.
"La nuova immagine che verrà creata avrà le espressioni e il comportamento facciale di Alec Baldwin, ma il volto di Trump, " ha detto Agarval.
Allo stesso modo, in un deepfake "sincronizzato", Gli algoritmi di intelligenza artificiale riprendono un video esistente di una persona che parla, e modifica i movimenti delle labbra nel video in modo che corrispondano a quelli di un nuovo audio, dove l'audio può essere un discorso più vecchio preso fuori contesto, un imitatore che parla, o discorso sintetizzato. L'anno scorso, l'attore e regista Jordan Peele ha usato questa tecnica per creare un video virale di Obama che diceva cose incendiarie sul presidente Trump.
Ma in questi video, cambiano solo i movimenti delle labbra, quindi le espressioni sul resto del viso potrebbero non corrispondere più alle parole pronunciate.
Per testare l'idea, Agarwal e Farid hanno raccolto filmati di cinque importanti figure politiche:Hillary Clinton, Barack Obama, Bernie Sanders, Donald Trump ed Elizabeth Warren, e li hanno condotti attraverso il toolkit open source per l'analisi del comportamento facciale OpenFace2, che individuava tic facciali come sopracciglia alzate, rughe del naso, gocce della mascella e labbra premute.
Il software di tracciamento OpenFace analizza un video reale del presidente Obama a sinistra, e un deepfake "lip-sync" sulla destra. Credito:UC Berkeley foto di Stephen McNally
Hanno quindi utilizzato gli output per creare quelli che il team chiama modelli "soft biometrici", che correlano le espressioni facciali e i movimenti della testa per ogni leader politico. Hanno scoperto che ogni leader aveva un modo distinto di parlare e, quando hanno usato questi modelli per analizzare video reali e deepfake creati dai loro collaboratori alla University of Southern California, hanno scoperto che i modelli potevano distinguere con precisione il vero dal falso tra il 92 e il 96 percento delle volte, a seconda del leader e della durata del video.
"L'idea di base è che possiamo costruire questi modelli biometrici morbidi di vari leader mondiali, come i candidati presidenziali del 2020, e poi quando i video iniziano a rompersi, Per esempio, possiamo analizzarli e provare a determinare se pensiamo che siano reali o no, " Disse Farid.
A differenza di alcune tecniche forensi digitali, che identificano i falsi individuando artefatti dell'immagine lasciati durante il processo di fabbricazione, il nuovo metodo può ancora riconoscere i falsi che sono stati alterati attraverso semplici elaborazioni digitali come il ridimensionamento o la compressione.
Ma non è infallibile. La tecnica funziona bene quando viene applicata a figure politiche che tengono discorsi e discorsi formali perché tendono ad attenersi a comportamenti ben collaudati in questi contesti. Ma potrebbe non funzionare altrettanto bene per i video di queste persone in altre impostazioni:ad esempio, Obama potrebbe non fare il suo caratteristico cenno del capo quando saluta i suoi amici.
I creatori di deepfake potrebbero anche diventare esperti di questi modelli di discorso e imparare a incorporarli nei loro video di leader mondiali, hanno detto i ricercatori.
Agarwal dice che spera che il nuovo approccio aiuterà a guadagnare un po' di tempo nella corsa in continua evoluzione per individuare i deepfake.
"Stiamo solo cercando di prendere un po' di vantaggio in questo gioco del gatto col topo di rilevare e creare nuovi deepfake, " ha detto Agarval.