La generazione di immagini AI sta avanzando a velocità astronomiche. Possiamo ancora dire se un'immagine è falsa?

Credito:Brendan Murphy, autore fornito

La fotografia falsa non è una novità. Negli anni '10, l'autore britannico Arthur Conan Doyle fu notoriamente ingannato da due sorelle in età scolare che avevano prodotto fotografie di eleganti fate che saltellavano nel loro giardino.

La prima delle cinque fotografie di "Cottingley Fairies", scattata da Elsie Wright nel 1917. Credit:Wikipedia

Oggi è difficile credere che queste foto possano aver ingannato qualcuno, ma è stato solo negli anni '80 che un esperto di nome Geoffrey Crawley ha avuto il coraggio di applicare direttamente la sua conoscenza della fotografia cinematografica e dedurre l'ovvio.

Le fotografie erano false, come ha poi ammesso una delle stesse sorelle.

Nel 1982 Geoffrey Crawley dedusse che le fotografie delle fate erano false. Così è questo. Credito:Brendan Murphy, autore fornito

A caccia di manufatti e buon senso

La fotografia digitale ha aperto una vasta gamma di tecniche sia per i falsari che per i detective.

L'esame forense di immagini sospette al giorno d'oggi implica la ricerca di qualità inerenti alla fotografia digitale, come l'esame dei metadati incorporati nelle foto, l'utilizzo di software come Adobe Photoshop per correggere le distorsioni nelle immagini e la ricerca di segni rivelatori di manipolazione, come le regioni duplicate in caratteristiche originali oscure.

A volte le modifiche digitali sono troppo sottili per essere rilevate, ma saltano alla vista quando regoliamo il modo in cui vengono distribuiti i pixel chiari e scuri. Ad esempio, nel 2010 la NASA ha rilasciato una foto delle lune di Saturno Dione e Titano. Non era in alcun modo falso, ma era stato ripulito per rimuovere gli artefatti vaganti, cosa che ha attirato l'attenzione dei teorici della cospirazione.

Curioso, ho messo l'immagine in Photoshop. L'illustrazione seguente ricrea all'incirca come appariva.

Una simulazione che mostra come è possibile rilevare la modifica quando vengono regolati i livelli di luce e oscurità. Credito:Brendan Murphy, autore fornito

La maggior parte delle fotografie digitali sono in formati compressi come JPEG, ridotti rimuovendo gran parte delle informazioni acquisite dalla fotocamera. Gli algoritmi standardizzati assicurano che le informazioni rimosse abbiano un impatto visibile minimo, ma lasciano tracce.

La compressione di qualsiasi regione di un'immagine dipenderà da cosa sta succedendo nell'immagine e dalle impostazioni correnti della fotocamera; quando un'immagine falsa combina più fonti, è spesso possibile rilevarlo mediante un'attenta analisi degli artefatti di compressione.

Una qualche metodologia forense ha poco a che fare con il formato di un'immagine, ma è essenzialmente un lavoro investigativo visivo. Tutti nella fotografia sono illuminati allo stesso modo? Le ombre e i riflessi hanno senso? Le orecchie e le mani mostrano luci e ombre nei posti giusti? Cosa si riflette negli occhi delle persone? Tutte le linee e gli angoli della stanza si sommano se modellassimo la scena in 3D?

Arthur Conan Doyle potrebbe essere stato ingannato dalle foto delle fate, ma penso che la sua creazione Sherlock Holmes sarebbe proprio a suo agio nel mondo dell'analisi fotografica forense.

Una nuova era dell'intelligenza artificiale

L'attuale esplosione di immagini create dagli strumenti di intelligenza artificiale (AI) text-to-image è per molti versi più radicale del passaggio dalla pellicola alla fotografia digitale.

Ora possiamo evocare qualsiasi immagine desideriamo, semplicemente digitando. Queste immagini non sono fotografie realizzate assemblando gruppi di pixel preesistenti. Sono immagini completamente nuove con il contenuto, la qualità e lo stile specificati.

Fino a poco tempo le complesse reti neurali utilizzate per generare queste immagini avevano una disponibilità limitata al pubblico. La situazione è cambiata il 23 agosto 2022, con il rilascio al pubblico dell'open source Stable Diffusion. Ora chiunque disponga di una scheda grafica Nvidia a livello di gioco nel proprio computer può creare contenuti di immagini AI senza alcun laboratorio di ricerca o controllo delle attività aziendali.

Ciò ha spinto molti a chiedersi:"possiamo mai credere di nuovo a ciò che vediamo online?". Dipende.

L'intelligenza artificiale da testo a immagine trae la sua intelligenza dalla formazione:l'analisi di un gran numero di coppie immagine/didascalia. I punti di forza e di debolezza di ciascun sistema derivano in parte dalle immagini su cui è stato addestrato. Ecco un esempio:è così che Stable Diffusion vede George Clooney fare la sua stiratura.

Questo è George Clooney che fa la sua stiratura... o no? Credito:Brendan Murphy, autore fornito

Questo è tutt'altro che realistico. Tutto ciò che Stable Diffusion deve fornire sono le informazioni che ha appreso e, sebbene sia chiaro che ha visto George Clooney e può collegare quella stringa di lettere ai lineamenti dell'attore, non è un esperto di Clooney.

Tuttavia, avrebbe visto e digerito molte più foto di uomini di mezza età in generale, quindi vediamo cosa succede quando chiediamo un uomo di mezza età generico nello stesso scenario.

Uomo di mezza età generico che fa la sua stiratura. Credito:Brendan Murphy, autore fornito

Si tratta di un netto miglioramento, ma non ancora del tutto realistico. Come è sempre stato il caso, la delicata geometria di mani e orecchie è un buon posto per cercare segni di falsi, anche se in questo mezzo stiamo guardando la geometria spaziale piuttosto che i segnali di un'illuminazione impossibile.

Potrebbero esserci altri indizi. Se ricostruissimo accuratamente la stanza, gli angoli sarebbero quadrati? Avrebbero senso gli scaffali? Un esperto forense abituato a esaminare le fotografie digitali potrebbe probabilmente fare una chiamata in merito.

Non possiamo più credere ai nostri occhi

Se estendiamo la conoscenza di un sistema da testo a immagine, può fare anche meglio. Puoi aggiungere le tue fotografie descritte per integrare la formazione esistente. Questo processo è noto come inversione testuale.

Di recente, Google ha rilasciato Dream Booth, un metodo alternativo e più sofisticato per iniettare persone, oggetti o persino stili artistici specifici nei sistemi di intelligenza artificiale da testo a immagine.

Questo processo richiede hardware per impieghi gravosi, ma i risultati sono sbalorditivi. Alcuni grandi lavori hanno iniziato a essere condivisi su Reddit. Guarda le foto nel post qui sotto che mostrano immagini inserite in DreamBooth e immagini false realistiche da Stable Diffusion.

Non possiamo più credere ai nostri occhi, ma potremmo ancora essere in grado di fidarci di quelli degli esperti forensi, almeno per ora. È del tutto possibile che i sistemi futuri possano essere deliberatamente addestrati per ingannare anche loro.

Stiamo rapidamente entrando in un'era in cui foto e persino video perfetti saranno comuni. Il tempo dirà quanto sarà significativo, ma nel frattempo vale la pena ricordare la lezione delle foto di Cottingley Fairy:a volte le persone vogliono solo credere, anche in falsi evidenti.

Combustione del gas d'altoforno:un'alternativa sostenibile per l'industria siderurgica?

Le reti private virtuali sono effettivamente private?

Elettronica