Un nuovo studio del NIST esamina con quanta precisione gli strumenti software di riconoscimento facciale identifichino persone di sesso diverso, età e razza. Credito:N. Hanacek/NIST
Con quanta precisione gli strumenti software di riconoscimento facciale identificano persone di sesso diverso, età e razza? Secondo un nuovo studio del National Institute of Standards and Technology (NIST), la risposta dipende dall'algoritmo al centro del sistema, l'applicazione che lo utilizza e i dati che riceve, ma la maggior parte degli algoritmi di riconoscimento facciale mostra differenziali demografici. Un differenziale significa che la capacità di un algoritmo di abbinare due immagini della stessa persona varia da un gruppo demografico all'altro.
Risultati acquisiti nel rapporto, Test del fornitore di riconoscimento facciale (FRVT) Parte 3:effetti demografici (NISTIR 8280), hanno lo scopo di informare i responsabili delle politiche e aiutare gli sviluppatori di software a comprendere meglio le prestazioni dei loro algoritmi. La tecnologia di riconoscimento facciale ha ispirato il dibattito pubblico in parte a causa della necessità di comprendere l'effetto dei dati demografici sugli algoritmi di riconoscimento facciale.
"Anche se di solito non è corretto fare affermazioni attraverso algoritmi, abbiamo trovato prove empiriche dell'esistenza di differenziali demografici nella maggior parte degli algoritmi di riconoscimento facciale che abbiamo studiato, " ha detto Patrick Grother, un informatico del NIST e autore principale del rapporto. "Anche se non esploriamo cosa potrebbe causare questi differenziali, questi dati saranno preziosi per i responsabili politici, sviluppatori e utenti finali nel pensare ai limiti e all'uso appropriato di questi algoritmi".
Lo studio è stato condotto attraverso il programma Face Recognition Vendor Test (FRVT) del NIST, che valuta gli algoritmi di riconoscimento facciale presentati dall'industria e dagli sviluppatori accademici sulla loro capacità di eseguire diverse attività. Sebbene il NIST non sottoponga a test i prodotti commerciali finalizzati che utilizzano questi algoritmi, il programma ha rivelato rapidi sviluppi nel fiorente campo.
Lo studio NIST ha valutato 189 algoritmi software di 99 sviluppatori, la maggioranza del settore. Si concentra su quanto bene ogni singolo algoritmo esegue una delle due diverse attività che sono tra le applicazioni più comuni di riconoscimento facciale. Il primo compito, confermare che una foto corrisponda a un'altra foto della stessa persona in un database, è noto come corrispondenza "uno a uno" ed è comunemente utilizzato per il lavoro di verifica, come sbloccare uno smartphone o controllare un passaporto. Il secondo, determinare se la persona nella foto ha una corrispondenza in un database, è noto come corrispondenza "uno-a-molti" e può essere utilizzato per l'identificazione di una persona di interesse.
Per valutare le prestazioni di ogni algoritmo sul suo compito, il team ha misurato le due classi di errore che il software può commettere:falsi positivi e falsi negativi. Un falso positivo significa che il software ha considerato erroneamente le foto di due persone diverse per mostrare la stessa persona, mentre un falso negativo significa che il software non è riuscito a far corrispondere due foto che, infatti, mostrare la stessa persona.
Fare queste distinzioni è importante perché la classe di errore e il tipo di ricerca possono avere conseguenze molto diverse a seconda dell'applicazione del mondo reale.
"In una ricerca uno a uno, un falso negativo potrebbe essere solo un inconveniente:non puoi entrare nel tuo telefono, ma il problema di solito può essere risolto con un secondo tentativo, " ha detto Grother. "Ma un falso positivo in una ricerca uno a molti mette una corrispondenza errata su un elenco di candidati che meritano un ulteriore esame".
Ciò che distingue la pubblicazione dalla maggior parte delle altre ricerche sul riconoscimento facciale è la sua preoccupazione per le prestazioni di ciascun algoritmo quando si considerano i fattori demografici. Per la corrispondenza uno a uno, solo pochi studi precedenti esplorano gli effetti demografici; per l'abbinamento uno a molti, nessuno ha.
Per valutare gli algoritmi, il team del NIST ha utilizzato quattro raccolte di fotografie contenenti 18,27 milioni di immagini di 8,49 milioni di persone. Tutto proveniva da banche dati operative fornite dal Dipartimento di Stato, il Dipartimento della Sicurezza Nazionale e l'FBI. Il team non ha utilizzato immagini "raschiate" direttamente da fonti Internet come i social media o dalla videosorveglianza.
Le foto nei database includevano informazioni sui metadati che indicavano l'età del soggetto, sesso, e razza o paese di nascita. Non solo il team ha misurato i falsi positivi e i falsi negativi di ciascun algoritmo per entrambi i tipi di ricerca, ma ha anche determinato quanto questi tassi di errore variassero tra i tag. In altre parole, quanto si è comportato relativamente bene l'algoritmo su immagini di persone di gruppi diversi?
I test hanno mostrato un'ampia gamma di precisione tra gli sviluppatori, con gli algoritmi più accurati che producono molti meno errori. Mentre l'attenzione dello studio era sui singoli algoritmi, Grother ha evidenziato cinque risultati più ampi:
Qualsiasi discussione sugli effetti demografici è incompleta se non distingue tra i compiti e i tipi fondamentalmente diversi di riconoscimento facciale, disse Grother. Tali distinzioni sono importanti da ricordare mentre il mondo affronta le più ampie implicazioni dell'uso della tecnologia di riconoscimento facciale.