Credito:CC0 Dominio Pubblico
Non sorprende che i dati dei consumatori vengano continuamente raccolti da varie organizzazioni, compresi i governi locali, agenzie di marketing e società di social media. Queste organizzazioni assicurano l'anonimato e la riservatezza durante la raccolta di questi dati, però, le leggi sulla privacy dei dati esistenti non garantiscono che non si verifichino violazioni dei dati. Secondo un recente rapporto, più di 2, 000 violazioni dei dati confermate si sono verificate solo nel 2019, con il 34% di quelli eseguiti da attori interni come i dipendenti. Per aggiungere a ciò, le agenzie municipali e statali raccolgono dati sensibili che sono tenuti per legge a condividere con il pubblico, per gentile concessione dei movimenti Open Data e del Freedom of Information Act.
Le leggi sulla privacy dei dati richiedono la crittografia e, in alcuni casi, trasformare i dati originali in "dati protetti" prima che vengano rilasciati a parti esterne. Ma per ricercatori come Matthew Schneider, dottorato di ricerca, un assistente professore di Scienze delle decisioni e Sistemi informativi gestionali presso il LeBow College of Business della Drexel University, questo non è adeguato.
"La crittografia aiuta sicuramente, ma non impedisce una violazione dei dati, " ha detto. "È simile alla salvaguardia della password della posta elettronica. Un attore interno con accesso alla chiave di crittografia potrebbe facilmente causare una violazione dei dati. Dal punto di vista del rischio, è più prudente presumere che tutti i dati alla fine usciranno e dovrebbero essere trasformati prima di essere condivisi in qualsiasi punto dell'organizzazione".
In un recente articolo pubblicato su Journal of Marketing Analytics , Schneider e Dawn Iacobucci, dottorato di ricerca, della Vanderbilt University, ha proposto una nuova metodologia che altera in modo permanente i set di dati dei sondaggi per proteggere la privacy dei consumatori, quando i dati sono condivisi, pur preservando un livello di ragionevole accuratezza per questi set di dati.
Secondo gli autori, i dati dei sondaggi sono spesso conservati all'interno delle organizzazioni e utilizzati per scopi che vanno oltre il motivo originale per la raccolta dei dati. "I database e le informazioni sui clienti sono diventati una risorsa contemporanea che rende un'azienda attraente per un'altra quando si stringono alleanze, " ha detto Schneider. "Anche le aziende con elevati standard di sicurezza dei dati possono trovare difficile proteggere la privacy dei dati dei consumatori".
Un altro meno comune, ma fin troppo reale, minaccia, secondo gli autori, sono casi in cui i dipendenti hanno illegalmente preso dati dalle loro ex società per una posizione con un nuovo datore di lavoro, per motivi che vanno dall'ottenere un'impressione favorevole con la nuova società, a danneggiare la vecchia società, a dover fornire i dati anche come condizione dell'offerta di lavoro.
Per Schneider, la soluzione per mantenere le promesse sulla privacy dei dati risulta essere tecnologica.
"I dati dei sondaggi sono sempre più utilizzati per analisi a livello di rispondente, come nel collegamento ad altri set di dati proprietari, e le promesse di privacy potrebbero non essere garantite nella miriade di utilizzi successivi dei dati, " ha detto Schneider. "La riservatezza non garantisce l'anonimato. Ci vogliono circa tre o quattro domande poste con attenzione in un sondaggio per identificare in modo univoco chiunque".
Nella carta, gli autori hanno analizzato un set di dati di un sondaggio che è stato raccolto nel 2015 dalla città di Austin, Texas e rilasciato al pubblico a seguito di un movimento Open Data. Altre città hanno movimenti simili, comprese New York e Filadelfia.
"Ci sono molti rischi per la privacy negli Open Data poiché non si occupano della privacy così come il governo federale che ha il budget e le risorse ampi per assumere statistici, economisti o informatici per affrontare questo problema tecnologico, " ha detto Schneider. "La protezione spesso dipende da come vengono utilizzati i dati".
La città di Austin ha somministrato un sondaggio a 2, 614 americani asiatici che vivono in città per esplorare le esigenze sanitarie e di servizio di una delle popolazioni in più rapida crescita della città, con l'obiettivo di creare livelli più elevati di impegno comunitario, politiche e per identificare le risorse per rispondere ai bisogni della comunità asiatico-americana. I funzionari di Austin hanno pubblicato i loro set di dati, come richiesto, per renderli immediatamente disponibili per gli utenti.
In un set di dati di indagine, ad ogni intervistato è stata chiesta la loro origine etnica, che aveva 32 categorie; età, che aveva 77 categorie; Cap, che aveva 61 categorie; e genere.
"Quasi tutti sono identificabili con queste quattro variabili, alcune più di altre, " ha detto Schneider. "Una volta identificati, questo sondaggio ha rivelato altre risposte sensibili come lo stato occupazionale, affiliazione religiosa, reddito familiare, accessibilità degli alloggi e molte questioni attitudinali. "
Allo stesso modo, New York City ha riscontrato un problema di dati aperti con la New York City Taxi and Limousine Commission, dove 124 milioni di percorsi di guida potevano essere rintracciati all'indirizzo di casa di un autista.
Una delle principali sfide quando si considerano le metodologie per alterare i dati dei partecipanti in modo efficace è farlo in un modo che non modifichi notevolmente l'accuratezza dei risultati del sondaggio. La metodologia proposta dagli autori, è stato costruito su una tecnica trovata nelle applicazioni di sequenziamento genomico che è stata in grado di mascherare l'identità dei consumatori mantenendo l'accuratezza delle informazioni entro il 5%.
"Il nostro metodo essenzialmente "mescola" i dati demografici in un set di dati di un sondaggio, " disse Schneider. "Ma, a differenza dei metodi precedenti, il nostro rimescola i dati solo quando mantiene le correlazioni tra variabili importanti che sono essenziali per gli analisti. I dati protetti vengono simulati a livello di consumatore ma comunque preziosi per l'utente finale. Se questo set di dati è uscito, allora si conoscerebbero solo le intuizioni dell'organizzazione."
La carta, "Protezione dei dati dei sondaggi a livello di consumatore, " è stato pubblicato nel Journal of Marketing Analytics ed è disponibile a questo link. I dettagli sulla nuova metodologia sono inclusi nel documento.