Credito:CC0 Dominio Pubblico
La tecnologia che alimenta i principali sistemi di riconoscimento vocale automatizzato della nazione fa il doppio degli errori nell'interpretazione delle parole pronunciate dagli afroamericani rispetto all'interpretazione delle stesse parole pronunciate dai bianchi, secondo un nuovo studio dei ricercatori della Stanford Engineering.
Mentre lo studio si è concentrato esclusivamente sulle disparità tra neri e bianchi americani, problemi simili potrebbero interessare persone che parlano con accenti regionali e non nativi inglesi, hanno concluso i ricercatori.
Se non indirizzato, questo squilibrio traslazionale potrebbe avere gravi conseguenze per la carriera e persino la vita delle persone. Molte aziende ora selezionano i candidati con interviste online automatizzate che utilizzano il riconoscimento vocale. I tribunali utilizzano la tecnologia per aiutare a trascrivere le udienze. Per le persone che non possono usare le mani, Inoltre, il riconoscimento vocale è fondamentale per l'accesso ai computer.
Le scoperte, pubblicato il 23 marzo sulla rivista Atti dell'Accademia Nazionale delle Scienze , si basavano su test di sistemi sviluppati da Amazon, IBM, Google, Microsoft e Apple. Le prime quattro società forniscono servizi di riconoscimento vocale online a pagamento, e i ricercatori hanno eseguito i loro test utilizzando quei servizi. Per il quinto, i ricercatori hanno creato un'applicazione iOS personalizzata che ha eseguito test utilizzando la tecnologia di riconoscimento vocale gratuito di Apple. I test sono stati condotti la scorsa primavera, e le tecnologie vocali potrebbero essere state aggiornate da allora.
I ricercatori non sono stati in grado di determinare se le tecnologie di riconoscimento vocale delle aziende fossero utilizzate anche dai loro assistenti virtuali, come Siri nel caso di Apple e Alexa nel caso di Amazon, perché le aziende non rivelano se utilizzano versioni diverse delle loro tecnologie in diverse offerte di prodotti.
"Ma ci si dovrebbe aspettare che le aziende con sede negli Stati Uniti costruiscano prodotti che servono tutti gli americani, " ha detto l'autore principale dello studio Allison Koenecke, un dottorando in ingegneria computazionale e matematica che ha collaborato con linguisti e informatici sul lavoro. "Proprio adesso, sembra che non lo stiano facendo per un intero segmento della popolazione".
Tassi di errore disuguali
Koenecke e i suoi colleghi hanno testato i sistemi di riconoscimento vocale di ciascuna azienda con più di 2, 000 campioni di discorso da interviste registrate con afroamericani e bianchi. I campioni di discorso nero provenivano dal Corpus of Regional African American Language, e i campioni bianchi provenivano da interviste condotte da Voices of California, che presenta interviste registrate di residenti di diverse comunità della California.
Tutte e cinque le tecnologie di riconoscimento vocale avevano tassi di errore quasi doppi per i neri rispetto ai bianchi, anche quando gli oratori erano abbinati per sesso ed età e quando pronunciavano le stesse parole. In media, i sistemi hanno frainteso il 35% delle parole pronunciate dai neri, ma solo il 19% di quelle pronunciate dai bianchi.
I tassi di errore erano più alti per gli uomini afroamericani, e la disparità era maggiore tra i parlanti che facevano un uso più massiccio dell'inglese vernacolare afroamericano.
I ricercatori hanno anche eseguito ulteriori test per accertare la frequenza con cui le cinque tecnologie di riconoscimento vocale hanno interpretato male le parole in modo così drastico che le trascrizioni erano praticamente inutili. Hanno testato migliaia di campioni di discorso, durata media di 15 secondi, contare quante volte le tecnologie hanno superato una soglia di pasticcio di almeno la metà delle parole in ogni campione. Questo tasso di errore inaccettabilmente alto si è verificato in oltre il 20% dei campioni parlati da neri, rispetto a meno del 2% dei campioni parlati dai bianchi.
pregiudizi nascosti
I ricercatori ipotizzano che le disparità comuni a tutte e cinque le tecnologie derivino da un difetto comune:i sistemi di apprendimento automatico utilizzati per addestrare i sistemi di riconoscimento vocale probabilmente si basano molto sui database dell'inglese parlato dai bianchi americani. Un approccio più equo sarebbe quello di includere database che riflettano una maggiore diversità degli accenti e dei dialetti di altri anglofoni.
A differenza di altri produttori, che sono spesso richiesti dalla legge o dalla consuetudine per spiegare cosa c'è nei loro prodotti e come dovrebbero funzionare, le società che offrono sistemi di riconoscimento vocale non hanno tali obblighi.
Sharad Goel, un professore di ingegneria computazionale a Stanford che ha supervisionato il lavoro, ha affermato che lo studio evidenzia la necessità di verificare le nuove tecnologie come il riconoscimento vocale per i pregiudizi nascosti che potrebbero escludere le persone che sono già emarginate. Tali audit dovrebbero essere effettuati da esperti esterni indipendenti, e richiederebbe molto tempo e lavoro, ma sono importanti per assicurarsi che questa tecnologia sia inclusiva.
"Non possiamo contare sulle aziende che si autoregolano, " Goel ha detto. "Non è quello che sono impostati per fare. Posso immaginare che alcuni potrebbero impegnarsi volontariamente in audit indipendenti se c'è abbastanza pressione pubblica. Ma potrebbe anche essere necessario che le agenzie governative impongano maggiori controlli. Le persone hanno il diritto di sapere quanto funziona davvero la tecnologia che influenza le loro vite".