Un giuramento di Ippocrate per la scienza dei dati? Bene, accontentati di un po' più di alfabetizzazione dei dati

Bias in, bias out:molti algoritmi hanno problemi di progettazione intrinseci. Credito:tono vintage/Shutterstock

"Giuro su Ipazia, di Lovelace, di Turing, di Fisher (e/o Bayes), e da tutti gli statistici e i data scientist, facendoli miei testimoni, che realizzerò, secondo le mie capacità e il mio giudizio, questo giuramento e questo contratto».

Potrebbe essere questa la prima riga di un "Giuramento di Ippocrate" per matematici e scienziati dei dati? Hannah Fry, Professore Associato in Matematica delle città presso l'University College London, sostiene che i matematici e gli scienziati dei dati hanno bisogno di un tale giuramento, proprio come i medici che giurano di agire solo nell'interesse dei loro pazienti.

"In medicina, impari l'etica fin dal primo giorno. In matematica, è un bullone nella migliore delle ipotesi. Deve essere presente fin dal primo giorno e in prima linea nella tua mente in ogni passo che fai, "Fry ha sostenuto.

Ma è davvero necessaria una versione tecnologica del giuramento di Ippocrate? In medicina, questi giuramenti variano tra le istituzioni, e si sono evoluti notevolmente nei quasi 2, 500 anni della loro storia. Infatti, c'è un certo dibattito sul fatto che il giuramento rimanga rilevante per i medici praticanti, tanto più che è la legge, piuttosto che un insieme di antichi principi greci, cui devono in ultima istanza attenersi.

In che modo la data science è arrivata al punto in cui si ritiene necessario un impegno etico? Ci sono certamente numerosi esempi di algoritmi che fanno del male:algoritmi di condanne penali, ad esempio, hanno dimostrato di raccomandare in modo sproporzionato che le persone a basso reddito e delle minoranze vengano mandate in prigione.

Crisi simili hanno già portato a proposte di impegni etici in passato. All'indomani della crisi finanziaria globale del 2008, un manifesto degli ingegneri finanziari Emanuel Derman e Paul Wilmott implorava i modellisti economici di giurare di non "dare alle persone che usano il mio modello un falso conforto sulla sua accuratezza. Invece, Renderò esplicite le sue ipotesi e sviste".

Proprio come i pregiudizi possono essere appresi da bambini, i pregiudizi di questi algoritmi sono il risultato del loro addestramento. Una caratteristica comune di questi algoritmi è l'uso di algoritmi black-box (spesso proprietari), molti dei quali sono addestrati utilizzando dati statisticamente distorti.

Nel caso della giustizia penale, l'esito ingiusto dell'algoritmo deriva dal fatto che storicamente, le minoranze sono sovrarappresentate nella popolazione carceraria (molto probabilmente a causa di pregiudizi umani di vecchia data). Questa distorsione viene quindi replicata e probabilmente esacerbata dall'algoritmo.

Gli algoritmi di machine learning sono addestrati sui dati, e ci si può aspettare che producano previsioni limitate a quei dati. Bias in, pregiudizio.

promesse, promesse

Prendere un impegno etico avrebbe aiutato i progettisti di questi algoritmi? Forse, ma una maggiore consapevolezza delle distorsioni statistiche potrebbe essere stata sufficiente. Le questioni della rappresentazione imparziale nel campionamento sono state a lungo una pietra angolare delle statistiche, e la formazione su questi argomenti potrebbe aver portato i progettisti a fare un passo indietro e mettere in dubbio la validità delle loro previsioni.

Fry stessa ha commentato questo problema in passato, dicendo che è necessario che le persone "prestino attenzione a come i pregiudizi che hai nei dati possono finire per alimentare le analisi che stai facendo".

Ma mentre i problemi della rappresentazione imparziale non sono nuovi nelle statistiche, il crescente utilizzo di algoritmi ad alta potenza in aree controverse rende la "alfabetizzazione dei dati" più rilevante che mai.

Parte del problema è la facilità con cui è possibile applicare gli algoritmi di apprendimento automatico, rendere l'alfabetizzazione dei dati non più peculiare degli scienziati matematici e informatici, ma al grande pubblico. L'alfabetizzazione statistica e di dati di base diffusa aiuterebbe la consapevolezza dei problemi con distorsioni statistiche, e sono un primo passo verso la protezione contro l'uso inappropriato degli algoritmi.

Nessuno è perfetto, e mentre una migliore alfabetizzazione ai dati aiuterà, pregiudizi involontari possono ancora essere trascurati. Gli algoritmi potrebbero anche contenere errori. Un modo semplice (da descrivere) per proteggersi da tali problemi è renderli disponibili al pubblico. Tale codice open source può consentire la responsabilità congiunta per il controllo dei bias e degli errori.

Iniziano a manifestarsi sforzi di questo tipo, ad esempio il progetto Web Transparency and Accountability presso la Princeton University. Certo, molti algoritmi proprietari sono commerciali confidenziali, che rende difficile la trasparenza. È quindi probabile che i quadri normativi diventino importanti e necessari in questo settore. Ma una precondizione è per i praticanti, politici, avvocati, e altri per comprendere i problemi relativi alla diffusa applicabilità dei modelli, e i loro pregiudizi statistici intrinseci.

L'etica è senza dubbio importante, e in un mondo perfetto farebbe parte di qualsiasi educazione. Ma i titoli universitari sono finiti. Sosteniamo che l'alfabetizzazione dei dati e statistica è una preoccupazione ancora più pressante, e potrebbe aiutare a prevenire la comparsa di altri "algoritmi non etici" in futuro.

Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.