Credito:CC0 Dominio Pubblico
Con le prime multe salate per la violazione delle norme del Regolamento generale sulla protezione dei dati dell'UE (GDPR) su di noi, e il governo del Regno Unito in procinto di rivedere le linee guida GDPR, i ricercatori hanno dimostrato come anche i set di dati anonimi possano essere ricondotti a individui che utilizzano l'apprendimento automatico.
I ricercatori dicono che il loro articolo, pubblicato oggi in Comunicazioni sulla natura , dimostra che consentire l'utilizzo dei dati per addestrare algoritmi di intelligenza artificiale, per esempio, preservando la privacy delle persone, richiede molto di più della semplice aggiunta di rumore, set di dati di campionamento, e altre tecniche di anonimizzazione.
Hanno anche pubblicato uno strumento dimostrativo che consente alle persone di capire quanto è probabile che vengano rintracciati, anche se il set di dati in cui si trovano è anonimo e solo una piccola parte di esso è condiviso.
Dicono che i loro risultati dovrebbero essere un campanello d'allarme per i responsabili politici sulla necessità di rafforzare le regole per ciò che costituisce dati veramente anonimi.
Sia le aziende che i governi raccolgono e utilizzano regolarmente i nostri dati personali. I nostri dati e il modo in cui vengono utilizzati sono protetti dalle leggi pertinenti come il GDPR o il California Consumer Privacy Act (CCPA) degli Stati Uniti.
I dati vengono "campionati" e resi anonimi, che include la rimozione dei dati di caratteristiche identificative come nomi e indirizzi e-mail, in modo che gli individui non possano, in teoria, essere identificato. Dopo questo processo, i dati non sono più soggetti alle norme sulla protezione dei dati, quindi può essere liberamente utilizzato e venduto a terzi come società pubblicitarie e broker di dati.
La nuova ricerca mostra che una volta acquistato, i dati possono spesso essere decodificati utilizzando l'apprendimento automatico per identificare nuovamente gli individui, nonostante le tecniche di anonimizzazione.
Ciò potrebbe esporre informazioni sensibili su individui identificati personalmente, e consentire agli acquirenti di costruire profili personali degli individui sempre più completi.
La ricerca dimostra per la prima volta quanto questo possa essere fatto facilmente e accuratamente, anche con set di dati incompleti.
Nella ricerca, Il 99,98 per cento degli americani è stato correttamente reidentificato in qualsiasi set di dati "anonimato" disponibile utilizzando solo 15 caratteristiche, compresa l'età, Genere, e stato civile.
Il primo autore, il dott. Luc Rocher di UCLouvain, ha dichiarato:"Anche se potrebbero esserci molte persone sulla trentina, maschio, e vivendo a New York City, molti meno di loro sono nati anche il 5 gennaio, stanno guidando un'auto sportiva rossa, e vivo con due bambini (entrambe ragazze) e un cane."
Per dimostrare questo, i ricercatori hanno sviluppato un modello di apprendimento automatico per valutare la probabilità che le caratteristiche di un individuo siano abbastanza precise da descrivere solo una persona in una popolazione di miliardi.
Hanno anche sviluppato uno strumento online, che non salva i dati ed è solo a scopo dimostrativo, per aiutare le persone a vedere quali caratteristiche le rendono uniche nei set di dati.
Lo strumento prima ti chiede di inserire la prima parte del loro codice postale (Regno Unito) o CAP (Stati Uniti), Genere, e data di nascita, prima di dare loro una probabilità che il loro profilo possa essere reidentificato in qualsiasi set di dati anonimizzato.
Poi chiede il tuo stato civile, numero di veicoli, stato di proprietà della casa, e condizione occupazionale, prima di ricalcolare. Aggiungendo più caratteristiche, la probabilità che una corrispondenza sia corretta aumenta notevolmente.
L'autore senior Dr. Yves-Alexandre de Montjoye, del Dipartimento di Informatica dell'Imperial, e Data Science Institute, ha dichiarato:"Si tratta di informazioni piuttosto standard che le aziende richiedono. Sebbene siano vincolate dalle linee guida GDPR, sono liberi di vendere i dati a chiunque una volta resi anonimi. La nostra ricerca mostra quanto facilmente e con quanta precisione gli individui possano essere rintracciati una volta che ciò accade.
Ha aggiunto:"Le aziende e i governi hanno minimizzato il rischio di reidentificazione sostenendo che i set di dati che vendono sono sempre incompleti.
"I nostri risultati contraddicono questo e dimostrano che un utente malintenzionato potrebbe stimare facilmente e con precisione la probabilità che il record che ha trovato appartenga alla persona che sta cercando".
La reidentificazione dei dati anonimi è il modo in cui i giornalisti hanno esposto le dichiarazioni dei redditi 1985-94 di Donald Trump nel maggio 2019.
Il coautore, il dott. Julien Hendrickx di UCLouvain, ha dichiarato:"Spesso ci viene assicurato che l'anonimizzazione manterrà le nostre informazioni personali al sicuro. Il nostro documento mostra che la de-identificazione non è affatto sufficiente per proteggere la privacy dei dati delle persone".
I ricercatori affermano che i responsabili politici devono fare di più per proteggere gli individui da tali attacchi, che potrebbe avere serie ramificazioni per le carriere così come le vite personali e finanziarie.
Il Dr. Hendrickx ha aggiunto:"È essenziale che gli standard di anonimizzazione siano solidi e tengano conto di nuove minacce come quella dimostrata in questo documento".
Il Dr. de Montjoye ha dichiarato:"L'obiettivo dell'anonimizzazione è quello di poter utilizzare i dati a beneficio della società. Questo è estremamente importante, ma non dovrebbe e non deve accadere a scapito della privacy delle persone".