I traduttori online sessisti ricevono un piccolo addestramento sulla sensibilità di genere

Credito:Aleutie/Shutterstock

Gli strumenti di traduzione online ci hanno aiutato a imparare nuove lingue, comunicare oltre i confini linguistici, e visualizzare i siti Web stranieri nella nostra lingua madre. Ma l'intelligenza artificiale (AI) dietro di loro è tutt'altro che perfetta, spesso replicando piuttosto che rifiutando i pregiudizi che esistono all'interno di una lingua o di una società.

Tali strumenti sono particolarmente vulnerabili agli stereotipi di genere, perché alcune lingue (come l'inglese) non tendono a sostantivi di genere, mentre altri (come il tedesco) lo fanno. Quando si traduce dall'inglese al tedesco, gli strumenti di traduzione devono decidere a quale genere assegnare parole inglesi come "cleaner". In modo schiacciante, gli strumenti sono conformi allo stereotipo, optando per la parola femminile in tedesco.

I pregiudizi sono umani:fanno parte di ciò che siamo. Ma quando lasciato incontrastato, i pregiudizi possono emergere sotto forma di atteggiamenti negativi concreti nei confronti degli altri. Ora, il nostro team ha trovato un modo per riqualificare l'intelligenza artificiale dietro gli strumenti di traduzione, utilizzando una formazione mirata per aiutarlo ad evitare gli stereotipi di genere. Il nostro metodo potrebbe essere utilizzato in altri campi dell'IA per aiutare la tecnologia a rifiutare, piuttosto che replicare, pregiudizi all'interno della società.

Algoritmi distorti

Per lo sgomento dei loro creatori, Gli algoritmi di intelligenza artificiale spesso sviluppano tratti razzisti o sessisti. Google Translate è stato accusato di stereotipi basati sul genere, come le sue traduzioni che presuppongono che tutti i medici siano maschi e tutte le infermiere siano femmine. Nel frattempo, il generatore di linguaggio AI GPT-3, che ha scritto un intero articolo per il Guardian nel 2020, ha recentemente dimostrato di essere anche incredibilmente bravo a produrre contenuti dannosi e disinformazione.

L'ungherese è una lingua neutra rispetto al genere, non ha pronomi di genere, quindi Google Translate sceglie automaticamente il sesso per te. Ecco come il sessismo quotidiano è costantemente codificato nel 2021. Vaffanculo, Google. pic.twitter.com/EPqkEw5yEQ
— Dora Vargha (@DoraVargha) 20 marzo, 2021

Questi fallimenti dell'IA non sono necessariamente colpa dei loro creatori. Accademici e attivisti hanno recentemente attirato l'attenzione sui pregiudizi di genere nell'Oxford English Dictionary, dove i sinonimi sessisti di "donna", come "cagna" o "cameriera", mostrano come anche un catalogo di parole accademicamente modificato può contenere pregiudizi che rafforzano gli stereotipi e perpetuano il sessismo quotidiano.

L'intelligenza artificiale impara i pregiudizi perché non è costruita nel vuoto:impara a pensare e ad agire leggendo, analizzare e classificare i dati esistenti, come quelli contenuti nell'Oxford English Dictionary. Nel caso della traduzione AI, esponiamo il suo algoritmo a miliardi di parole di dati testuali e gli chiediamo di riconoscere e imparare dai modelli che rileva. Chiamiamo questo processo apprendimento automatico, e lungo il percorso vengono appresi modelli di bias, nonché quelli della grammatica e della sintassi.

Idealmente, i dati testuali che mostriamo all'IA non conterranno bias. Ma c'è una tendenza in corso nel campo verso la costruzione di sistemi più grandi formati su set di dati in continua crescita. Stiamo parlando di centinaia di miliardi di parole. Questi sono ottenuti da Internet utilizzando strumenti di scraping del testo indiscriminati come Common Crawl e WebText2, che saccheggia il web, divorando ogni parola che incontrano.

La vastità dei dati risultanti rende impossibile per qualsiasi essere umano sapere effettivamente cosa c'è dentro. Ma sappiamo che parte di esso proviene da piattaforme come Reddit, che ha fatto notizia per aver presentato offensivo, informazioni false o cospirative nei post degli utenti.

Nuove traduzioni

Nella nostra ricerca, volevamo cercare un modo per contrastare il pregiudizio all'interno di set di dati testuali raschiati da Internet. I nostri esperimenti hanno utilizzato una parte selezionata casualmente di un corpus inglese-tedesco esistente (una selezione di testo) che originariamente conteneva 17,2 milioni di coppie di frasi, metà in inglese, metà in tedesco.

Come abbiamo evidenziato, Il tedesco ha forme di genere per i nomi (il dottore può essere "der Arzt" per il maschio, "die Ärztin" per femmina) dove in inglese non generiamo queste forme nominali (con alcune eccezioni, loro stessi polemici, come "attore" e "attrice").

La nostra analisi di questi dati ha rivelato chiari squilibri specifici di genere. Ad esempio, abbiamo scoperto che la forma maschile di ingegnere in tedesco (der Ingenieur) era 75 volte più comune della sua controparte femminile (die Ingenieurin). Uno strumento di traduzione addestrato su questi dati replicherà inevitabilmente questo pregiudizio, traducendo "ingegnere" al maschile "der Ingenieur". Quindi cosa si può fare per evitare o mitigare questo?

Superare i pregiudizi

Una risposta apparentemente semplice è "bilanciare" il corpus prima di chiedere ai computer di imparare da esso. Forse, ad esempio, l'aggiunta di più ingegneri donne al corpus impedirebbe a un sistema di traduzione di presumere che tutti gli ingegneri siano uomini.

Sfortunatamente, ci sono difficoltà con questo approccio. Gli strumenti di traduzione vengono addestrati per giorni su miliardi di parole. Riqualificarli alterando il genere delle parole è possibile, ma è inefficiente costoso e complicato. Modificare il genere in lingue come il tedesco è particolarmente impegnativo perché, per dare un senso grammaticale, potrebbe essere necessario modificare diverse parole in una frase per riflettere lo scambio di genere.

Invece di questo laborioso riequilibrio di genere, abbiamo deciso di riqualificare i sistemi di traduzione esistenti con lezioni mirate. Quando abbiamo individuato un pregiudizio negli strumenti esistenti, abbiamo deciso di riqualificarli su nuovi, set di dati più piccoli, un po' come un pomeriggio di formazione sulla sensibilità di genere al lavoro.

Questo approccio richiede una frazione del tempo e delle risorse necessarie per addestrare i modelli da zero. Siamo stati in grado di utilizzare solo poche centinaia di esempi di traduzione selezionati, anziché milioni, per adattare il comportamento dell'IA della traduzione in modi mirati. Quando si testavano le professioni di genere nella traduzione, come avevamo fatto con gli "ingegneri", i miglioramenti di precisione dopo l'adattamento erano circa nove volte superiori rispetto all'approccio di riqualificazione "equilibrato".

Nella nostra ricerca, volevamo dimostrare che affrontare i pregiudizi nascosti in enormi set di dati non significa necessariamente aggiustare faticosamente milioni di esempi di formazione, un compito che rischia di essere liquidato come impossibile. Anziché, la distorsione dai dati può essere mirata e non appresa, una lezione che altri ricercatori di intelligenza artificiale possono applicare al proprio lavoro.

Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.