Credito:CC0 Dominio Pubblico
L'intelligenza artificiale (AI) sta già riconfigurando il mondo in modo evidente. I dati guidano il nostro ecosistema digitale globale, e le tecnologie di intelligenza artificiale rivelano modelli nei dati. Smartphone, case intelligenti, e le città intelligenti influenzano il modo in cui viviamo e interagiamo, e i sistemi di intelligenza artificiale sono sempre più coinvolti nelle decisioni di assunzione, diagnosi mediche, e sentenze giudiziarie. Se questo scenario è utopico o distopico dipende dalla tua prospettiva.
I potenziali rischi dell'IA sono enumerati ripetutamente. I robot killer e la disoccupazione di massa sono preoccupazioni comuni, mentre alcune persone temono addirittura l'estinzione umana. Previsioni più ottimistiche affermano che l'IA aggiungerà 15 trilioni di dollari all'economia mondiale entro il 2030, e alla fine ci condurrà a una sorta di nirvana sociale.
Dobbiamo certamente considerare l'impatto che tali tecnologie stanno avendo sulle nostre società. Una preoccupazione importante è che i sistemi di intelligenza artificiale rafforzino i pregiudizi sociali esistenti, con effetti dannosi. Diversi esempi noti di questo fenomeno hanno ricevuto ampia attenzione:sistemi di traduzione automatica automatizzati all'avanguardia che producono risultati sessisti, e sistemi di riconoscimento delle immagini che classificano i neri come gorilla.
Questi problemi sorgono perché tali sistemi utilizzano modelli matematici (come le reti neurali) per identificare modelli in grandi insiemi di dati di addestramento. Se quei dati sono gravemente distorti in vari modi, allora i suoi pregiudizi intrinseci saranno inevitabilmente appresi e riprodotti dai sistemi addestrati. Le tecnologie autonome parziali sono problematiche poiché possono potenzialmente emarginare gruppi come donne, le minoranze etniche, o gli anziani, aggravando così gli squilibri sociali esistenti.
Se i sistemi di intelligenza artificiale vengono addestrati sui dati degli arresti della polizia, Per esempio, quindi qualsiasi pregiudizio conscio o inconscio manifestato nei modelli esistenti di arresti verrebbe replicato da un sistema di intelligenza artificiale di "polizia predittiva" addestrato su quei dati. Riconoscendo le gravi implicazioni di ciò, varie organizzazioni autorevoli hanno recentemente consigliato di addestrare tutti i sistemi di intelligenza artificiale su dati imparziali. Le linee guida etiche pubblicate all'inizio del 2019 dalla Commissione europea hanno offerto la seguente raccomandazione:
Quando i dati vengono raccolti, può contenere pregiudizi socialmente costruiti, imprecisioni, errori ed errori. Questo deve essere affrontato prima dell'addestramento con un dato set di dati.
Trattare con dati distorti
Sembra tutto abbastanza sensato. Ma sfortunatamente, a volte è semplicemente impossibile garantire che alcuni set di dati siano imparziali prima dell'addestramento. Un esempio concreto dovrebbe chiarire questo.
Tutti i sistemi di traduzione automatica all'avanguardia (come Google Translate) sono addestrati su coppie di frasi. Un sistema inglese-francese utilizza dati che associano frasi inglesi ("è alta") con frasi francesi equivalenti (" elle est grande "). Potrebbero esserci 500 m di tali accoppiamenti in un dato insieme di dati di allenamento, e quindi un miliardo di frasi separate in totale. Tutti i pregiudizi di genere dovrebbero essere rimossi da un set di dati di questo tipo se volessimo impedire al sistema risultante di produrre risultati sessisti come i seguenti:
La traduzione francese è stata generata utilizzando Google Translate l'11 ottobre 2019, e non è corretto:" Ils " è il pronome soggetto maschile plurale in francese, e appare qui nonostante il contesto indichi chiaramente che si fa riferimento alle donne. Questo è un classico esempio dell'impostazione predefinita maschile preferita dal sistema automatizzato a causa di errori nei dati di addestramento.
Generalmente, Il 70% dei pronomi di genere nei set di dati di traduzione sono maschili, mentre il 30% è femminile. Questo perché i testi utilizzati per tali scopi tendono a riferirsi più agli uomini che alle donne. Per evitare che i sistemi di traduzione replichino questi pregiudizi esistenti, specifiche coppie di frasi dovrebbero essere rimosse dai dati, in modo che i pronomi maschili e femminili si verificassero 50%/50% sia in inglese che in francese. Ciò impedirebbe al sistema di assegnare probabilità più elevate ai pronomi maschili.
Anche i nomi e gli aggettivi dovrebbero essere bilanciati 50%/50%, Certo, poiché questi possono indicare il genere in entrambe le lingue ("attore", "attrice"; "nuovo", "neuve") – e così via. Ma questo drastico down-sampling ridurrebbe necessariamente considerevolmente i dati di training disponibili, diminuendo così la qualità delle traduzioni prodotte.
E anche se il sottoinsieme di dati risultante fosse completamente bilanciato per genere, sarebbe comunque distorto in ogni altro modo (come l'etnia o l'età). In verità, sarebbe difficile rimuovere tutti questi pregiudizi completamente . Se una persona dedicasse solo cinque secondi alla lettura di ciascuna delle un miliardo di frasi nei dati di addestramento, ci vorrebbero 159 anni per controllarli tutti, e questo presuppone la volontà di lavorare giorno e notte, senza pause pranzo.
Un'alternativa?
Quindi non è realistico richiedere che tutti i set di dati di addestramento siano imparziali prima che vengano creati i sistemi di intelligenza artificiale. Tali requisiti di alto livello di solito presuppongono che "AI" denoti un cluster omogeneo di modelli matematici e approcci algoritmici.
In realtà, diversi compiti di intelligenza artificiale richiedono tipi di sistemi molto diversi. E minimizzare l'intera portata di questa diversità nasconde i problemi reali posti da (diciamo) dati di allenamento profondamente distorti. Questo è deplorevole, poiché significa che vengono trascurate altre soluzioni al problema della distorsione dei dati.
Ad esempio, i pregiudizi in un sistema di traduzione automatica addestrato possono essere sostanzialmente ridotti se il sistema viene adattato dopo che è stato addestrato sul più grande, inevitabilmente di parte, insieme di dati. Questo può essere fatto usando un molto più piccolo, meno distorto, insieme di dati. La maggior parte dei dati potrebbe essere fortemente distorta, perciò, ma il sistema addestrato su di esso non deve esserlo. Sfortunatamente, queste tecniche sono raramente discusse da coloro che hanno il compito di sviluppare linee guida e quadri legislativi per la ricerca sull'IA.
Se i sistemi di IA rafforzano semplicemente gli squilibri sociali esistenti, quindi ostacolano piuttosto che facilitare un cambiamento sociale positivo. Se le tecnologie di intelligenza artificiale che utilizziamo sempre più quotidianamente fossero molto meno distorte di noi, allora potrebbero aiutarci a riconoscere e affrontare i nostri pregiudizi in agguato.
Sicuramente questo è ciò per cui dovremmo lavorare. E quindi gli sviluppatori di intelligenza artificiale devono pensare molto più attentamente alle conseguenze sociali dei sistemi che costruiscono, mentre chi scrive di AI ha bisogno di capire più in dettaglio come i sistemi di AI sono effettivamente progettati e costruiti. Perché se ci stiamo davvero avvicinando a un idillio tecnologico o a un'apocalisse, il primo sarebbe preferibile.
Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.