L'intelligenza artificiale servirà a sviluppare un sistema di controllo della rete che non solo rileva e reagisce ai problemi, ma può anche prevederli ed evitarli. Credito:CC0 Dominio Pubblico
Vedere per credere fino a quando la tecnologia non ha sollevato la sua possente testa e ci ha fornito strumenti di fotoritocco potenti ed economici. Ora, video realistici che mappano le espressioni facciali di una persona su quelle di un'altra, conosciuti come deepfake, presentare una formidabile arma politica.
Ma se è il benevolo appianare una ruga in un ritratto, o un video manipolato per farlo sembrare un politico che dice qualcosa di offensivo, tutto il fotoritocco lascia tracce per gli strumenti giusti da scoprire.
Ricerca condotta dal Video Computing Group di Amit Roy-Chowdhury presso l'Università della California, Riverside ha sviluppato un'architettura di rete neurale profonda in grado di identificare le immagini manipolate a livello di pixel con alta precisione. Roy-Chowdhury è professore di ingegneria elettrica e informatica e Bourns Family Faculty Fellow presso il Marlan and Rosemary Bourns College of Engineering.
Una rete neurale profonda è ciò che i ricercatori di intelligenza artificiale chiamano sistemi informatici che sono stati addestrati per svolgere compiti specifici, in questo caso, riconoscere le immagini alterate. Queste reti sono organizzate in livelli connessi; "architettura" si riferisce al numero di strati e alla struttura delle connessioni tra di loro.
Gli oggetti nelle immagini hanno dei limiti e ogni volta che un oggetto viene inserito o rimosso da un'immagine, il suo confine avrà qualità diverse rispetto ai confini degli oggetti nell'immagine naturalmente. Per esempio, qualcuno con buone capacità di Photoshop farà del suo meglio per rendere l'oggetto inserito il più naturale possibile levigando questi confini.
Anche se questo potrebbe ingannare l'occhio nudo, se esaminati pixel per pixel, i confini dell'oggetto inserito sono diversi. Per esempio, sono spesso più lisci degli oggetti naturali. Rilevando i confini degli oggetti inseriti e rimossi, un computer dovrebbe essere in grado di identificare le immagini alterate.
I ricercatori hanno etichettato le immagini non manipolate e i pixel rilevanti nelle regioni di confine delle immagini manipolate in un ampio set di dati di foto. L'obiettivo era quello di insegnare alla rete neurale una conoscenza generale delle regioni manipolate e naturali delle foto. Hanno testato la rete neurale con una serie di immagini che non aveva mai visto prima, e per la maggior parte del tempo rilevava quelli alterati. Ha persino individuato la regione manipolata.
"Abbiamo addestrato il sistema a distinguere tra immagini manipolate e non manipolate, e ora se gli dai una nuova immagine è in grado di fornire una probabilità che quell'immagine sia manipolata o meno, e per localizzare la regione dell'immagine in cui si è verificata la manipolazione, " Disse Roy-Chowdhury.
I ricercatori stanno lavorando su immagini fisse per ora, ma sottolineano che questo può anche aiutarli a rilevare i video deepfake.
"Se riesci a capire le caratteristiche di un fermo immagine, in un video è fondamentalmente solo mettere insieme immagini fisse una dopo l'altra, " Roy-Chowdhury ha detto. "La sfida più fondamentale è probabilmente capire se un fotogramma in un video viene manipolato o meno".
Anche un singolo fotogramma manipolato alzerebbe una bandiera rossa. Ma Roy-Chowdhury pensa che abbiamo ancora molta strada da fare prima che gli strumenti automatizzati possano rilevare i video deepfake in natura.
"È un problema impegnativo, " Roy-Chowdhury ha detto. "Questo è una specie di gioco del gatto e del topo. L'intera area della sicurezza informatica sta in qualche modo cercando di trovare meccanismi di difesa migliori, ma poi l'attaccante trova anche meccanismi migliori".
Ha affermato che il rilevamento dei deepfake completamente automatizzato potrebbe non essere realizzabile nel prossimo futuro.
"Se vuoi dare un'occhiata a tutto quello che c'è su Internet, un essere umano non può farlo da un lato, e un sistema automatizzato probabilmente non può farlo in modo affidabile. Quindi deve essere un mix dei due, " Disse Roy-Chowdhury.
Le architetture di reti neurali profonde possono produrre elenchi di video e immagini sospetti che le persone possono esaminare. Gli strumenti automatizzati possono ridurre la quantità di dati che le persone, come i moderatori dei contenuti di Facebook, devono vagliare per determinare se un'immagine è stata manipolata.
Per questo uso, gli strumenti sono proprio dietro l'angolo.
"Probabilmente è qualcosa a cui queste tecnologie contribuiranno in un lasso di tempo molto breve, probabilmente tra qualche anno, " Disse Roy-Chowdhury.