Credito:Pixabay/CC0 di dominio pubblico
La controversia circonda le nuove misure dell'US Census Bureau per preservare la privacy, ma un nuovo studio esamina come gli errori di dati esistenti possano rappresentare un problema ancora più grande per le politiche basate sull'evidenza. La pietra angolare delle misure aggiornate sulla privacy del Census Bureau, la privacy differenziale, richiede l'iniezione di incertezza statistica o rumore durante la condivisione di dati sensibili. Studiosi, politici e attivisti hanno sollevato preoccupazioni sull'effetto di questo rumore sugli usi cruciali dei dati del censimento. Tuttavia, la maggior parte delle analisi dei compromessi sulla privacy differenziale trascura le incertezze più profonde nei dati del censimento. In un nuovo studio, i ricercatori hanno esaminato come le politiche educative che utilizzano i dati del censimento allocano in modo errato i fondi a causa dell'incertezza statistica.
Lo studio ha rilevato che le allocazioni errate dovute al rumore iniettato per motivi di privacy possono essere piccole o trascurabili, rispetto alle allocazioni errate dovute a fonti esistenti di errore dei dati come segnalazioni errate o mancata risposta. Ma lo studio rileva anche che semplici riforme delle politiche potrebbero aiutare le formule di finanziamento ad affrontare la distribuzione ineguale dell'incertezza derivante dall'errore dei dati e spianare la strada a nuove protezioni della privacy, offrendo una via di compromesso tra politiche mirate, equità e migliori protezioni della privacy.
Lo studio, condotto dai ricercatori della Carnegie Mellon University (CMU) e pubblicato su Science , si concentra sul titolo I della legge sull'istruzione elementare e secondaria, che fornisce assistenza finanziaria ai distretti scolastici con un numero elevato di bambini provenienti da famiglie a basso reddito per garantire che tutti i bambini soddisfino gli standard di istruzione statale. I fondi federali sono stanziati attraverso formule basate principalmente sulle stime del censimento della povertà e del costo dell'istruzione in ogni stato. Nel 2021, il governo degli Stati Uniti ha stanziato oltre 16,5 miliardi di dollari in fondi del Titolo I a più di 13.000 distretti scolastici e altre agenzie educative locali.
In questo studio, i ricercatori hanno utilizzato una simulazione esatta del processo di assegnazione del Titolo I per confrontare gli impatti politici del rumore iniettato per la privacy con gli impatti dell'incertezza statistica esistente. In particolare, hanno confrontato gli impatti dell'errore di dati quantificato e di un possibile meccanismo di iniezione del rumore differenzialmente privato. Ad esempio, degli 11,7 miliardi di dollari dei fondi del Titolo I del 2021 esaminati da questo studio, 1,06 miliardi di dollari sono stati stanziati fuori da alcuni distretti in un'esecuzione media della simulazione a causa del solo errore dei dati. Questa cifra è aumentata di soli $ 50 milioni quando i ricercatori hanno iniettato rumore per fornire una protezione della privacy relativamente forte.
"Abbiamo prestato particolare attenzione al modo in cui il titolo I concentra implicitamente gli impatti negativi dell'incertezza statistica sui gruppi emarginati", spiega Ryan Steed, un dottorato di ricerca. studente presso l'Heinz College della CMU, che ha guidato lo studio. "L'indebolimento della protezione della privacy non aiuta questi gruppi e per loro la partecipazione a un sondaggio del censimento può essere particolarmente rischiosa."
I risultati mostrano che le allocazioni errate dovute all'incertezza statistica svantaggiano particolarmente i gruppi emarginati (ad esempio, studenti neri e asiatici; distretti con una grande popolazione di studenti ispanici). La perdita di fondi di un gruppo demografico dipendeva dal fatto che i suoi membri tendessero a vivere in distretti ad alta o bassa povertà, compresi quelli in distretti più densi, solitamente urbani.
"Tuttavia, abbiamo anche identificato riforme politiche che potrebbero ridurre gli impatti disparati sia dell'errore dei dati che dei meccanismi di privacy", osserva Steven Wu, assistente professore presso la School of Computer Science della CMU. "Ad esempio, l'utilizzo delle medie pluriennali, anziché delle stime di un singolo anno, ha ridotto sia l'allocazione errata generale che le disparità nei risultati."
Tra i limiti dello studio, gli autori sottolineano che il loro studio non tiene conto dei sottoconteggi sistematici e di molte altre forme non quantificate di incertezza statistica che influiscono sulle stime della povertà, comprese le misure precedenti per proteggere la privacy come lo scambio di dati.
"I nostri risultati suggeriscono che l'impatto della privacy differenziale rispetto ad altre fonti di errore nei dati del censimento potrebbe essere minimo", osserva Alessandro Acquisti, professore di tecnologia dell'informazione e politiche pubbliche presso l'Heinz College della CMU, coautore dello studio. "Il semplice riconoscimento degli effetti dell'errore nei dati potrebbe migliorare la futura progettazione delle politiche sia per le formule di finanziamento che per evitare la divulgazione". + Esplora ulteriormente