Credito:Unsplash/CC0 dominio pubblico
Per aiutare gli studenti universitari in difficoltà prima che sia troppo tardi, sempre più università adottano modelli di machine learning per identificare gli studenti a rischio di abbandono.
Quali informazioni entrano in questi modelli possono avere un grande effetto su quanto siano accurati ed equi, soprattutto quando si tratta di caratteristiche degli studenti protette come il genere, razza e reddito familiare. Ma in un nuovo studio, il più grande audit di un sistema di intelligenza artificiale di un college fino ad oggi, i ricercatori non trovano prove che la rimozione delle caratteristiche degli studenti protette da un modello migliori l'accuratezza o l'equità delle previsioni.
Questo risultato è stato una sorpresa per René Kizilcec, assistente professore di scienze dell'informazione e direttore del Future of Learning Lab.
"Ci aspettavamo che la rimozione delle caratteristiche socio-demografiche avrebbe reso il modello meno accurato, a causa di come queste caratteristiche sono consolidate nello studio del rendimento scolastico, " ha detto. "Anche se troviamo che l'aggiunta di questi attributi non fornisce alcun vantaggio empirico, consigliamo di includerli nel modello, perché perlomeno riconosce l'esistenza di disuguaglianze educative che sono ancora ad esse associate".
Kizilcec è autore senior di "I modelli di previsione dell'abbandono scolastico dovrebbero includere attributi protetti?" da presentare alla Virtual Association for Computing Machinery Conference on Learning at Scale, 22-25 giugno. Il lavoro è stato nominato per una conferenza Best Paper award.
I coautori sono i membri del Future of Learning Lab Hannah Lee, uno studente di master nel campo dell'informatica, e l'autore principale Renzhe Yu, uno studente di dottorato presso l'Università della California, Irvine.
Per questo lavoro, Kizilcec e il suo team hanno esaminato i dati sugli studenti sia in un contesto universitario residenziale che in un programma completamente online. L'istituzione oggetto dello studio è una grande università pubblica degli Stati Uniti sud-occidentali, che non è nominato nel giornale.
Confrontando sistematicamente modelli predittivi con e senza attributi protetti, i ricercatori miravano a determinare sia come l'inclusione di attributi protetti influenzi l'accuratezza della previsione dell'abbandono del college, e se l'inclusione di attributi protetti influisce sull'equità della previsione dell'abbandono del college.
Il set di dati dei ricercatori era enorme:un totale di 564, 104 record di frequentazione di corsi residenziali per 93, 457 studenti unici e 2, 877 corsi unici; e 81, 858 record di partecipazione a corsi online per 24, 198 studenti unici e 874 corsi unici.
Dal set di dati, Il team di Kizilcec ha creato 58 caratteristiche di identificazione in quattro categorie, inclusi quattro attributi protetti:sesso dello studente; status di college di prima generazione; membro di un gruppo di minoranza sottorappresentato (definito né asiatico né bianco); e un elevato fabbisogno finanziario. Per determinare le conseguenze dell'utilizzo di attributi protetti per prevedere l'abbandono, i ricercatori hanno generato due set di funzionalità, uno con attributi protetti e uno senza.
La loro scoperta principale:l'inclusione di quattro importanti attributi protetti non ha alcun effetto significativo su tre misure comuni delle prestazioni di previsione complessive quando le funzionalità di uso comune, compresi i documenti accademici, sono già nel modello
"Ciò che conta per identificare gli studenti a rischio è già spiegato da altri attributi, " Kizilcec ha detto. "Gli attributi protetti non aggiungono molto. Potrebbe esserci un divario di genere o un divario razziale, ma la sua associazione con l'abbandono è trascurabile rispetto a caratteristiche come il precedente GPA".
Detto ciò, Kizilcec e il suo team continuano a sostenere l'inclusione di attributi protetti nella modellazione di previsione. Notano che i dati sull'istruzione superiore riflettono disuguaglianze di vecchia data, e citano lavori recenti nella più ampia comunità di apprendimento automatico che supporta la nozione di "equità attraverso la consapevolezza".
"C'è stato un lavoro che mostra che il modo in cui determinati attributi, come il curriculum accademico, influenzare la probabilità di uno studente di persistere al college potrebbe variare tra i diversi gruppi di attributi protetti, " ha detto. "E così, includendo le caratteristiche degli studenti nel modello, possiamo spiegare questa variazione tra diversi gruppi di studenti".
Gli autori hanno concluso affermando:"Ci auguriamo che questo studio ispiri un maggior numero di ricercatori nelle comunità di analisi dell'apprendimento e di data mining educative a impegnarsi con problemi di pregiudizio algoritmico e correttezza nei modelli e nei sistemi che sviluppano e valutano".
Il laboratorio di Kizilcec ha lavorato molto sull'equità algoritmica nell'istruzione, che ha detto è un argomento poco studiato.
"Questo è in parte dovuto al fatto che gli algoritmi [nell'istruzione] non sono così visibili, e spesso funzionano in modi diversi rispetto alla giustizia penale o alla medicina, " ha detto. "Nell'istruzione, non si tratta di mandare qualcuno in prigione, o essere falsamente diagnosticati per il cancro. Ma per il singolo studente, può essere un grosso problema essere contrassegnati come a rischio".