Credito:CC0 Dominio pubblico
Dopo che l'U.S. Census Bureau ha annunciato che stava cambiando il modo in cui protegge le identità degli individui per il censimento del 2020, un team di ricerca guidato dalla Penn State ha iniziato a valutare come questi cambiamenti possono influenzare l'integrità dei dati del censimento.
Il Census Bureau propone di utilizzare la privacy differenziale, un nuovo metodo che tenta di proteggere l'identità degli individui durante la pubblicazione di dati pubblici. I dati del censimento vengono utilizzati per distribuire i finanziamenti federali che hanno un impatto sulle comunità e determinano anche la rappresentanza al Congresso.
Alessio Santos, assistente professore di sviluppo umano e studi sulla famiglia alla Penn State, insieme ai ricercatori Jeffrey Howard, professore assistente presso l'Università del Texas a San Antonio, e Ashton Verdery, professore associato di sociologia, demografia, e analisi dei dati sociali presso Penn State, ha esaminato i tassi di mortalità nel 2010. I ricercatori hanno confrontato entrambi i metodi di protezione della privacy e le implicazioni di questo cambiamento per comprendere meglio le disparità di salute negli Stati Uniti. L'opera è stata pubblicata di recente su Atti dell'Accademia Nazionale delle Scienze .
Il team di ricerca ha scoperto che quando veniva utilizzato il metodo della privacy differenziale sui dati del censimento, ha prodotto cambiamenti drammatici nei conteggi della popolazione per le minoranze razziali ed etniche rispetto ai metodi tradizionali.
"Ci siamo concentrati sulle stime del tasso di mortalità perché sono una metrica essenziale a livello di popolazione per la quale i dati vengono raccolti e diffusi a livello nazionale e perché i tassi di mortalità sono un indicatore critico della salute della popolazione, " ha detto Santos.
Il team di ricerca ha quindi esplorato i cambiamenti nei tassi di mortalità risultanti dai due sistemi di prevenzione della divulgazione tramite classificazioni metropolitane.
"Abbiamo scoperto che utilizzando la privacy differenziale, ci sono stati sia casi di sotto e sovra-conteggio della popolazione. Nelle zone rurali, c'era sottostima delle minoranze razziali ed etniche, mentre nelle aree urbane c'era un sovracontaggio di queste popolazioni, " ha detto Santos.
I ricercatori hanno scoperto che alcune discrepanze tra i due metodi di analisi dei dati superavano una differenza del 10%.
"Questo è molto preoccupante perché potrebbe avere un impatto sulla quantità di finanziamenti ricevuti dai programmi per una specifica area geografica, ", ha affermato Santos. "Queste discrepanze potrebbero comportare rischi per la salute sottostimati in alcune aree, e mentre esagera in altri dove non ce n'è un grande bisogno."
Secondo Santos, i risultati evidenziano le conseguenze dell'implementazione della privacy differenziale e dimostrano le sfide nell'utilizzo dei prodotti di dati derivati da questo metodo.
"Il Census Bureau è stato molto ricettivo nei confronti della nostra ricerca, e ha dimostrato preoccupazione per l'accuratezza dei dati, " Santos ha detto. "Abbiamo in programma di andare avanti con ulteriori ricerche per determinare come la privacy differenziale può influenzare le stime di crescita della popolazione e le variazioni della popolazione da un anno di censimento all'anno del censimento. Siamo ancora in tempo per mettere a punto l'algoritmo della privacy differenziale, e la nostra ricerca aiuterà a individuare le aree di miglioramento".