Grandi cambiamenti da un fotogramma all'altro possono segnalare problemi. Credito:Jesse Milan/Flickr, CC BY
Un tempo solo le società di produzione di Hollywood con tasche profonde e team di artisti e tecnici qualificati potevano realizzare video deepfake, invenzioni realistiche che sembrano mostrare persone che fanno e dicono cose che in realtà non hanno mai fatto o detto. Non più:il software disponibile gratuitamente online consente a chiunque abbia un computer e un po' di tempo a disposizione di creare video falsi convincenti.
Sia usato per vendetta personale, molestare celebrità o influenzare l'opinione pubblica, i deepfake rendono falso l'assioma secolare che "vedere per credere".
Il mio team di ricerca e io all'Information Sciences Institute della University of Southern California stiamo sviluppando modi per distinguere tra falsi dall'aspetto realistico e video autentici che mostrano eventi reali mentre sono accaduti. La nostra recente ricerca ha trovato un modo nuovo e apparentemente più accurato per rilevare i video deepfake.
Trovare i difetti
Parlando in generale, vari algoritmi deepfake funzionano utilizzando tecniche di apprendimento automatico per analizzare le immagini del bersaglio, identificare gli elementi chiave delle espressioni facciali come il naso, angoli della bocca, posizioni degli occhi e così via. Usano queste informazioni per sintetizzare nuove immagini del viso di quella persona e le mettono insieme per creare un video del bersaglio che sembra realistico ma è falso.
La maggior parte dei metodi attuali per rilevare i deepfake implica l'osservazione di ogni fotogramma di un video separatamente, manualmente o utilizzando un algoritmo di rilevamento, per individuare piccoli difetti lasciati dal processo di fabbricazione dell'immagine. Se ci sono prove sufficienti di manomissione in un numero sufficiente di fotogrammi, il video è considerato falso.
Però, i creatori di deepfake hanno iniziato a utilizzare grandi quantità di compressione di immagini e video per sfocare i loro risultati, nascondendo eventuali artefatti che potrebbero rivelare la loro falsità.
Guardando le sequenze, non singoli fotogrammi
Il nostro metodo cerca di aggirare questo inganno adottando un approccio diverso. Estraiamo tutti i fotogrammi da un video e identifichiamo le aree che mostrano il volto del bersaglio. Allora noi, in effetti, impila tutte quelle immagini di volti una sopra l'altra, assicurandosi che il naso, occhi e bocca sono tutti allineati tra ogni fotogramma. Ciò elimina gli effetti dei movimenti della testa o degli spostamenti dell'angolazione della telecamera nel video.
Un algoritmo identifica gli elementi facciali in un fotogramma di un video. Credito:Wael Abd-Almageed, CC BY-ND
Quindi, piuttosto che guardare ogni immagine del viso individualmente, cerchiamo incongruenze nel modo in cui le diverse parti del viso si spostano da un fotogramma all'altro nel tempo. È un po' come preparare un flip-book per bambini e poi guardare gli strani salti nella sequenza. Abbiamo scoperto che questo metodo è più accurato, in parte perché possiamo identificare più prove di falsità rispetto a quando si guarda ogni fotogramma da solo.
Nello specifico, abbiamo rilevato deepfake il 96% delle volte, anche quando le immagini e i video sono notevolmente compressi. Finora abbiamo trovato quel livello di accuratezza solo sull'unico database su larga scala disponibile per i ricercatori accademici per valutare le loro tecniche di rilevamento deepfake, che si chiama FaceForensics++. Quel set di dati contiene video di tre dei più importanti algoritmi di generazione di deepfake, faccia2faccia, FaceSwap e DeepFake, anche se i falsari migliorano sempre i loro metodi.
Il rilevamento dei deepfake è una corsa agli armamenti, in cui falsificatori e cercatori di verità continueranno a far progredire le loro rispettive tecnologie. Perciò, il compito di limitarne gli effetti sulla società nel suo insieme non può spettare solo ai ricercatori. Studiosi e sperimentatori devono continuare a lavorare, Certo, ma non è tutto. Credo che le piattaforme di social networking dovrebbero anche lavorare per sviluppare software e politiche che rallentino la diffusione della disinformazione di tutti i tipi, sia che si tratti di manipolare il viso di una persona o di mostrare il suo intero corpo che si muove in modi che non avrebbero mai potuto fare.
Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.