• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • I ricercatori escogitano un approccio per ridurre i pregiudizi nei set di dati di visione artificiale

    Affrontare i problemi di bias nell'intelligenza artificiale, scienziati informatici di Princeton e della Stanford University hanno proposto miglioramenti a ImageNet, un database di oltre 14 milioni di immagini. I ricercatori hanno sviluppato uno strumento che consente agli utenti di specificare e recuperare set di immagini di persone bilanciate per età, espressione di genere o colore della pelle. L'animazione sopra è una rappresentazione concettuale dello strumento. Credito:Ryan Rizzuto

    Affrontare i problemi di bias nell'intelligenza artificiale, scienziati informatici di Princeton e della Stanford University hanno sviluppato metodi per ottenere set di dati più corretti contenenti immagini di persone. I ricercatori propongono miglioramenti a ImageNet, un database di oltre 14 milioni di immagini che ha svolto un ruolo chiave nel progresso della visione artificiale negli ultimi dieci anni.

    ImageNet, che include immagini di oggetti e paesaggi così come persone, funge da fonte di dati di formazione per i ricercatori che creano algoritmi di apprendimento automatico che classificano le immagini o riconoscono gli elementi al loro interno. La scala senza precedenti di ImageNet ha reso necessaria la raccolta automatizzata delle immagini e l'annotazione delle immagini in crowdsourcing. Sebbene le categorie di persone del database siano state utilizzate raramente dalla comunità di ricerca, il team di ImageNet ha lavorato per affrontare i pregiudizi e altre preoccupazioni sulle immagini con persone che sono conseguenze non intenzionali della costruzione di ImageNet.

    "La visione del computer ora funziona davvero bene, il che significa che viene distribuito ovunque in tutti i tipi di contesti, " ha detto la co-autrice Olga Russakovsky, un assistente professore di informatica a Princeton. "Questo significa che ora è il momento di parlare del tipo di impatto che sta avendo sul mondo e di pensare a questo tipo di problemi di equità".

    In un nuovo documento, il team di ImageNet ha identificato sistematicamente concetti non visivi e categorie offensive, quali caratterizzazioni razziali e sessuali, tra le categorie di persone di ImageNet e ha proposto di rimuoverle dal database. I ricercatori hanno anche progettato uno strumento che consente agli utenti di specificare e recuperare set di immagini di persone bilanciate per età, espressione di genere o colore della pelle, con l'obiettivo di facilitare algoritmi che classificano in modo più equo i volti e le attività delle persone nelle immagini. I ricercatori hanno presentato il loro lavoro il 30 gennaio alla conferenza sull'equità dell'Association for Computing Machinery, Responsabilità e trasparenza a Barcellona, Spagna.

    "C'è davvero bisogno di ricercatori e laboratori con competenze tecniche di base in questo per impegnarsi in questo tipo di conversazioni, " ha detto Russakovsky. "Data la realtà che abbiamo bisogno di raccogliere i dati su larga scala, data la realtà che si farà con il crowdsourcing perché è la pipeline più efficiente e consolidata, come possiamo farlo in un modo più equo, che non rientri in questo tipo di insidie ​​precedenti? Il messaggio centrale di questo documento riguarda soluzioni costruttive".

    Un gruppo di scienziati informatici a Princeton e Stanford ha lanciato ImageNet nel 2009 come risorsa per ricercatori ed educatori accademici. A guidare lo sforzo c'era l'alunna di Princeton e membro della facoltà Fei-Fei Li, ora professore di informatica a Stanford. Per incoraggiare i ricercatori a costruire algoritmi di visione artificiale migliori utilizzando ImageNet, il team ha anche creato l'ImageNet Large Scale Visual Recognition Challenge. La sfida si è concentrata in gran parte sul riconoscimento degli oggetti utilizzando 1, 000 categorie di immagini, solo tre delle quali presentavano persone.

    Alcuni dei problemi di correttezza in ImageNet derivano dalla pipeline utilizzata per creare il database. Le sue categorie di immagini provengono da WordNet, un vecchio database di parole inglesi utilizzate per la ricerca sull'elaborazione del linguaggio naturale. I creatori di ImageNet hanno adottato i nomi in WordNet, alcuni dei quali, sebbene siano termini verbali chiaramente definiti, non si traducono bene in un vocabolario visivo. Per esempio, i termini che descrivono la religione o l'origine geografica di una persona potrebbero recuperare solo i risultati di ricerca di immagini più distintivi, potenzialmente conducendo ad algoritmi che perpetuano gli stereotipi.

    Un recente progetto artistico chiamato ImageNet Roulette ha attirato maggiore attenzione su queste preoccupazioni. Il progetto, pubblicato a settembre 2019 come parte di una mostra d'arte sui sistemi di riconoscimento delle immagini, ha utilizzato immagini di persone da ImageNet per addestrare un modello di intelligenza artificiale che classificasse le persone in parole sulla base di un'immagine inviata. Gli utenti possono caricare un'immagine di se stessi e recuperare un'etichetta basata su questo modello. Molte delle classificazioni erano offensive o semplicemente fuori base.

    L'innovazione centrale che ha permesso ai creatori di ImageNet di accumulare un database così ampio di immagini etichettate è stato l'uso del crowdsourcing, in particolare, la piattaforma Amazon Mechanical Turk (MTurk), attraverso il quale i lavoratori venivano pagati per verificare le immagini candidate. Questo approccio, mentre trasformativo, era imperfetto, portando ad alcuni pregiudizi e categorizzazioni inadeguate.

    "Quando chiedi alle persone di verificare le immagini selezionando quelle corrette da un ampio insieme di candidati, le persone si sentono spinte a selezionare alcune immagini e quelle immagini tendono ad essere quelle con caratteristiche distintive o stereotipate, " ha detto l'autore principale Kaiyu Yang, uno studente laureato in informatica.

    Nello studio, Yang e colleghi hanno prima filtrato le categorie di persone potenzialmente offensive o sensibili da ImageNet. Hanno definito le categorie offensive come quelle contenenti parolacce o insulti razziali o di genere; categorie sensibili incluse, Per esempio, la classificazione delle persone in base all'orientamento sessuale o alla religione. Per annotare le categorie, hanno reclutato 12 studenti laureati di diversa estrazione, incaricandoli di peccare per etichettare una categoria come sensibile se non erano sicuri. Questo ha eliminato 1, 593 categorie—circa il 54% delle 2, 932 categorie di persone in ImageNet.

    I ricercatori si sono quindi rivolti ai lavoratori di MTurk per valutare la "immaginabilità" delle restanti categorie sicure su una scala da uno a cinque. Mantenere le categorie con un punteggio di immagine di quattro o superiore ha portato a solo 158 categorie classificate come sicure e immagini. Anche questo insieme di categorie altamente filtrato conteneva più di 133, 000 immagini:una vasta gamma di esempi per l'addestramento degli algoritmi di visione artificiale.

    All'interno di queste 158 categorie, i ricercatori hanno studiato la rappresentazione demografica delle persone nelle immagini per valutare il livello di distorsione in ImageNet e ideare un approccio per creare set di dati più equi. I contenuti di ImageNet provengono da motori di ricerca di immagini come Flickr, e i motori di ricerca in generale hanno dimostrato di produrre risultati che sovrarappresentano i maschi, persone dalla pelle chiara, e adulti di età compresa tra i 18 e i 40 anni.

    "Le persone hanno scoperto che le distribuzioni dei dati demografici nei risultati di ricerca di immagini sono altamente distorte, ed è per questo che anche la distribuzione in ImageNet è distorta, " ha detto Yang. "In questo articolo abbiamo cercato di capire quanto sia parziale, e anche per proporre un metodo per bilanciare la distribuzione."

    Degli attributi protetti dalle leggi antidiscriminazione degli Stati Uniti, i ricercatori hanno considerato i tre attributi che sono immaginabili:colore della pelle, espressione di genere ed età. Ai lavoratori di MTurk è stato chiesto di annotare ogni attributo di ogni persona in un'immagine. Hanno classificato il colore della pelle come chiaro, medio o scuro; ed età da bambino (sotto i 18 anni), adulto 18-40, adulto 40-65 o adulto sopra i 65 anni. Le classificazioni di genere includevano maschio, femminile e insicuro:un modo per includere persone con diverse espressioni di genere, così come annotare immagini in cui il genere non potrebbe essere percepito da indizi visivi (come molte immagini di bambini o subacquei).

    L'analisi delle annotazioni ha mostrato che, simile ai risultati di ricerca, Il contenuto di ImageNet riflette un pregiudizio considerevole. Persone annotate come dalla pelle scura, femmine, e gli adulti sopra i 40 anni erano sottorappresentati nella maggior parte delle categorie.

    Sebbene il processo di annotazione includesse controlli di qualità e richiedesse agli annotatori di raggiungere il consenso, per la preoccupazione per il potenziale danno di annotazioni errate, i ricercatori hanno scelto di non rilasciare annotazioni demografiche per le singole immagini. Anziché, hanno progettato uno strumento di interfaccia web che consente agli utenti di ottenere una serie di immagini che sono demograficamente bilanciate in un modo specificato dall'utente. Per esempio, la raccolta completa di immagini nella categoria "programmatore" può includere circa il 90% maschi e il 10% femmine, mentre negli Stati Uniti circa il 20% dei programmatori di computer sono donne. Un ricercatore potrebbe utilizzare il nuovo strumento per recuperare una serie di immagini del programmatore che rappresentano l'80% di maschi e il 20% di femmine, o una divisione uniforme, a seconda dello scopo del ricercatore.

    "Non vogliamo dire qual è il modo corretto per bilanciare i dati demografici, perché non è un problema molto semplice, " ha detto Yang. "La distribuzione potrebbe essere diversa nelle diverse parti del mondo:la distribuzione dei colori della pelle negli Stati Uniti è diversa rispetto ai paesi asiatici, Per esempio. Quindi lasciamo questa domanda al nostro utente, e forniamo solo uno strumento per recuperare un sottoinsieme bilanciato delle immagini."

    Il team di ImageNet sta attualmente lavorando su aggiornamenti tecnici del suo hardware e database, oltre a implementare il filtraggio delle categorie di persone e lo strumento di riequilibrio sviluppato in questa ricerca. ImageNet sarà presto ripubblicato con questi aggiornamenti, e con una richiesta di feedback da parte della comunità di ricerca sulla visione artificiale.


    © Scienza https://it.scienceaq.com