• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Lo studio valuta gli effetti della razza, età, sesso sul software di riconoscimento facciale

    Un nuovo studio del NIST esamina con quanta precisione gli strumenti software di riconoscimento facciale identifichino persone di sesso diverso, età e razza. Credito:N. Hanacek/NIST

    Con quanta precisione gli strumenti software di riconoscimento facciale identificano persone di sesso diverso, età e razza? Secondo un nuovo studio del National Institute of Standards and Technology (NIST), la risposta dipende dall'algoritmo al centro del sistema, l'applicazione che lo utilizza e i dati che riceve, ma la maggior parte degli algoritmi di riconoscimento facciale mostra differenziali demografici. Un differenziale significa che la capacità di un algoritmo di abbinare due immagini della stessa persona varia da un gruppo demografico all'altro.

    Risultati acquisiti nel rapporto, Test del fornitore di riconoscimento facciale (FRVT) Parte 3:effetti demografici (NISTIR 8280), hanno lo scopo di informare i responsabili delle politiche e aiutare gli sviluppatori di software a comprendere meglio le prestazioni dei loro algoritmi. La tecnologia di riconoscimento facciale ha ispirato il dibattito pubblico in parte a causa della necessità di comprendere l'effetto dei dati demografici sugli algoritmi di riconoscimento facciale.

    "Anche se di solito non è corretto fare affermazioni attraverso algoritmi, abbiamo trovato prove empiriche dell'esistenza di differenziali demografici nella maggior parte degli algoritmi di riconoscimento facciale che abbiamo studiato, " ha detto Patrick Grother, un informatico del NIST e autore principale del rapporto. "Anche se non esploriamo cosa potrebbe causare questi differenziali, questi dati saranno preziosi per i responsabili politici, sviluppatori e utenti finali nel pensare ai limiti e all'uso appropriato di questi algoritmi".

    Lo studio è stato condotto attraverso il programma Face Recognition Vendor Test (FRVT) del NIST, che valuta gli algoritmi di riconoscimento facciale presentati dall'industria e dagli sviluppatori accademici sulla loro capacità di eseguire diverse attività. Sebbene il NIST non sottoponga a test i prodotti commerciali finalizzati che utilizzano questi algoritmi, il programma ha rivelato rapidi sviluppi nel fiorente campo.

    Lo studio NIST ha valutato 189 algoritmi software di 99 sviluppatori, la maggioranza del settore. Si concentra su quanto bene ogni singolo algoritmo esegue una delle due diverse attività che sono tra le applicazioni più comuni di riconoscimento facciale. Il primo compito, confermare che una foto corrisponda a un'altra foto della stessa persona in un database, è noto come corrispondenza "uno a uno" ed è comunemente utilizzato per il lavoro di verifica, come sbloccare uno smartphone o controllare un passaporto. Il secondo, determinare se la persona nella foto ha una corrispondenza in un database, è noto come corrispondenza "uno-a-molti" e può essere utilizzato per l'identificazione di una persona di interesse.

    Per valutare le prestazioni di ogni algoritmo sul suo compito, il team ha misurato le due classi di errore che il software può commettere:falsi positivi e falsi negativi. Un falso positivo significa che il software ha considerato erroneamente le foto di due persone diverse per mostrare la stessa persona, mentre un falso negativo significa che il software non è riuscito a far corrispondere due foto che, infatti, mostrare la stessa persona.

    Fare queste distinzioni è importante perché la classe di errore e il tipo di ricerca possono avere conseguenze molto diverse a seconda dell'applicazione del mondo reale.

    "In una ricerca uno a uno, un falso negativo potrebbe essere solo un inconveniente:non puoi entrare nel tuo telefono, ma il problema di solito può essere risolto con un secondo tentativo, " ha detto Grother. "Ma un falso positivo in una ricerca uno a molti mette una corrispondenza errata su un elenco di candidati che meritano un ulteriore esame".

    Ciò che distingue la pubblicazione dalla maggior parte delle altre ricerche sul riconoscimento facciale è la sua preoccupazione per le prestazioni di ciascun algoritmo quando si considerano i fattori demografici. Per la corrispondenza uno a uno, solo pochi studi precedenti esplorano gli effetti demografici; per l'abbinamento uno a molti, nessuno ha.

    Per valutare gli algoritmi, il team del NIST ha utilizzato quattro raccolte di fotografie contenenti 18,27 milioni di immagini di 8,49 milioni di persone. Tutto proveniva da banche dati operative fornite dal Dipartimento di Stato, il Dipartimento della Sicurezza Nazionale e l'FBI. Il team non ha utilizzato immagini "raschiate" direttamente da fonti Internet come i social media o dalla videosorveglianza.

    Le foto nei database includevano informazioni sui metadati che indicavano l'età del soggetto, sesso, e razza o paese di nascita. Non solo il team ha misurato i falsi positivi e i falsi negativi di ciascun algoritmo per entrambi i tipi di ricerca, ma ha anche determinato quanto questi tassi di errore variassero tra i tag. In altre parole, quanto si è comportato relativamente bene l'algoritmo su immagini di persone di gruppi diversi?

    I test hanno mostrato un'ampia gamma di precisione tra gli sviluppatori, con gli algoritmi più accurati che producono molti meno errori. Mentre l'attenzione dello studio era sui singoli algoritmi, Grother ha evidenziato cinque risultati più ampi:

    1. Per la corrispondenza uno a uno, il team ha riscontrato tassi più elevati di falsi positivi per i volti asiatici e afroamericani rispetto alle immagini di caucasici. I differenziali spesso variavano da un fattore da 10 a 100 volte, a seconda del singolo algoritmo. I falsi positivi potrebbero rappresentare un problema di sicurezza per il proprietario del sistema, in quanto possono consentire l'accesso agli impostori.
    2. Tra gli algoritmi sviluppati negli Stati Uniti, c'erano simili alti tassi di falsi positivi nella corrispondenza uno a uno per gli asiatici, afroamericani e gruppi nativi (che includono nativi americani, Indiano americano, indiani dell'Alaska e delle isole del Pacifico). La fascia demografica degli indiani d'America aveva i tassi più alti di falsi positivi.
    3. Però, una notevole eccezione è stata per alcuni algoritmi sviluppati nei paesi asiatici. Non c'era una differenza così drammatica nei falsi positivi nella corrispondenza uno a uno tra volti asiatici e caucasici per gli algoritmi sviluppati in Asia. Mentre Grother ha ribadito che lo studio del NIST non esplora la relazione tra causa ed effetto, una possibile connessione, e area di ricerca, è la relazione tra le prestazioni di un algoritmo e i dati utilizzati per addestrarlo. "Questi risultati sono un segno incoraggiante che dati di formazione più diversificati possono produrre risultati più equi, se fosse possibile per gli sviluppatori utilizzare tali dati, " Egli ha detto.
    4. Per la corrispondenza uno a molti, il team ha riscontrato tassi più elevati di falsi positivi per le donne afroamericane. I differenziali nei falsi positivi nella corrispondenza uno a molti sono particolarmente importanti perché le conseguenze potrebbero includere false accuse. (In questo caso, il test non ha utilizzato l'intero set di foto, ma solo un database dell'FBI contenente 1,6 milioni di foto segnaletiche nazionali.)
    5. Però, non tutti gli algoritmi danno questo alto tasso di falsi positivi tra i dati demografici in corrispondenza uno-a-molti, e quelli che sono i più equi si classificano anche tra i più accurati. Quest'ultimo punto sottolinea un messaggio generale del rapporto:algoritmi diversi si comportano in modo diverso.

    Qualsiasi discussione sugli effetti demografici è incompleta se non distingue tra i compiti e i tipi fondamentalmente diversi di riconoscimento facciale, disse Grother. Tali distinzioni sono importanti da ricordare mentre il mondo affronta le più ampie implicazioni dell'uso della tecnologia di riconoscimento facciale.


    © Scienza https://it.scienceaq.com