• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • I rischi per la privacy della compilazione dei dati sulla mobilità

    I ricercatori del MIT scoprono che la crescente pratica di compilare enormi set di dati sui modelli di movimento delle persone per la pianificazione urbana e la ricerca sullo sviluppo può, infatti, mettere a rischio i dati privati ​​delle persone, anche se tali dati sono resi anonimi. Credito:Massachusetts Institute of Technology

    Un nuovo studio dei ricercatori del MIT rileva che la crescente pratica di compilare enormi, i set di dati anonimi sui modelli di movimento delle persone sono un'arma a doppio taglio:sebbene possano fornire approfondimenti sul comportamento umano per la ricerca, potrebbe anche mettere a rischio i dati privati ​​delle persone.

    Aziende, ricercatori, e altre entità stanno iniziando a raccogliere, negozio, ed elaborare dati anonimi che contengono "timbri di posizione" (coordinate geografiche e timestamp) degli utenti. I dati possono essere acquisiti dai tabulati dei telefoni cellulari, transazioni con carta di credito, smart card per il trasporto pubblico, account Twitter, e app mobili. L'unione di questi set di dati potrebbe fornire informazioni dettagliate su come viaggiano gli esseri umani, ad esempio, ottimizzare i trasporti e la pianificazione urbana, tra l'altro.

    Ma con i big data arrivano grandi problemi di privacy:i timbri di posizione sono estremamente specifici per le persone e possono essere utilizzati per scopi nefasti. Recenti ricerche hanno dimostrato che, dati solo pochi punti selezionati casualmente nei set di dati sulla mobilità, qualcuno potrebbe identificare e apprendere informazioni sensibili su individui. Con i dataset di mobilità uniti, questo diventa ancora più semplice:un agente potrebbe potenzialmente abbinare le traiettorie degli utenti in dati anonimi da un set di dati, con dati deanonimizzati in un altro, per smascherare i dati anonimi.

    In un articolo pubblicato oggi in Transazioni IEEE su Big Data , i ricercatori del MIT mostrano come ciò possa accadere nella prima analisi in assoluto della cosiddetta "matchability" dell'utente in due set di dati su larga scala provenienti da Singapore, uno da un operatore di rete mobile e uno da un sistema di trasporto locale.

    I ricercatori utilizzano un modello statistico che tiene traccia dei timbri di posizione degli utenti in entrambi i set di dati e fornisce una probabilità che i punti dati in entrambi i set provengano dalla stessa persona. Negli esperimenti, i ricercatori hanno scoperto che il modello potrebbe corrispondere a circa il 17% degli individui in una settimana di dati, e più del 55 percento degli individui dopo un mese di dati raccolti. Il lavoro dimostra un efficiente, modo scalabile per abbinare le traiettorie di mobilità nei set di dati, che può essere un vantaggio per la ricerca. Ma, i ricercatori avvertono, tali processi possono aumentare la possibilità di deanonimizzare i dati degli utenti reali.

    "Come ricercatori, crediamo che lavorare con set di dati su larga scala possa consentire di scoprire intuizioni senza precedenti sulla società umana e sulla mobilità, permettendoci di pianificare meglio le città. Tuttavia, è importante mostrare se l'identificazione è possibile, in modo che le persone possano essere consapevoli dei potenziali rischi della condivisione dei dati sulla mobilità, "dice Daniel Kondor, un postdoc nel Future Urban Mobility Group presso la Singapore-MIT Alliance for Research and Technology.

    "Nella pubblicazione dei risultati e, in particolare, le conseguenze della deanonimizzazione dei dati:ci siamo sentiti un po' come hacker "da cappello bianco" o "etici", " aggiunge il coautore Carlo Ratti, un professore della pratica nel Dipartimento di Studi Urbani e Pianificazione del MIT e direttore del Senseable City Lab del MIT. "Abbiamo ritenuto che fosse importante mettere in guardia le persone su queste nuove possibilità [di fusione dei dati] e [considerare] come potremmo regolarle".

    I coautori dello studio sono Behrooz Hashemian, un postdoc al Senseable City Lab, e Yves-Alexandre de Mondjoye del Dipartimento di Informatica e Data Science Institute dell'Imperial College di Londra.

    Eliminare i falsi positivi

    Per capire come funziona la corrispondenza dei timbri di posizione e la potenziale deanonimizzazione, considera questo scenario:"Sono stato all'isola di Sentosa a Singapore due giorni fa, è venuto ieri all'aeroporto di Dubai, e oggi sono a Jumeirah Beach a Dubai. È altamente improbabile che la traiettoria di un'altra persona sia esattamente la stessa. In breve, se qualcuno ha i dati anonimi della mia carta di credito, e forse i miei dati sulla posizione aperti da Twitter, potrebbero quindi deanonimare i dati della mia carta di credito, "dice Ratti.

    Esistono modelli simili per valutare la deanonimizzazione dei dati. Ma quelli usano approcci computazionalmente intensivi per la reidentificazione, che significa unire dati anonimi con dati pubblici per identificare individui specifici. Questi modelli hanno funzionato solo su set di dati limitati. I ricercatori del MIT hanno invece utilizzato un approccio statistico più semplice, misurando la probabilità di falsi positivi, per prevedere in modo efficiente la corrispondenza tra decine di utenti in enormi set di dati.

    Nel loro lavoro, i ricercatori hanno compilato due set di dati anonimi "a bassa densità" - pochi record al giorno - sull'uso del telefono cellulare e sul trasporto personale a Singapore, registrati in una settimana nel 2011. I dati mobili provenivano da un grande operatore di rete mobile e comprendevano timestamp e coordinate geografiche in oltre 485 milioni di record di oltre 2 milioni di utenti. I dati sui trasporti contenevano oltre 70 milioni di record con timestamp per le persone che si spostavano per la città.

    La probabilità che un determinato utente disponga di record in entrambi i set di dati aumenterà insieme alla dimensione dei set di dati uniti, ma così sarà anche la probabilità di falsi positivi. Il modello dei ricercatori seleziona un utente da un set di dati e trova un utente dall'altro set di dati con un numero elevato di timbri di posizione corrispondenti. In poche parole, all'aumentare del numero di punti corrispondenti, la probabilità di una corrispondenza falsa positiva diminuisce. Dopo aver abbinato un certo numero di punti lungo una traiettoria, il modello esclude la possibilità che la corrispondenza sia un falso positivo.

    Concentrandosi sugli utenti tipici, hanno stimato un tasso di successo di corrispondenza del 17% su una settimana di dati compilati, e circa il 55 per cento per quattro settimane. Questa stima sale a circa il 95% con dati raccolti in 11 settimane.

    I ricercatori hanno anche stimato quanta attività è necessaria per abbinare la maggior parte degli utenti in una settimana. Guardando agli utenti con tra 30 e 49 record di trasporto personale, e circa 1, 000 record mobili, hanno stimato più del 90% di successo con una settimana di dati raccolti. Inoltre, combinando i due set di dati con le tracce GPS, raccolte regolarmente attivamente e passivamente dalle app per smartphone, i ricercatori hanno stimato che potrebbero corrispondere al 95% delle singole traiettorie, utilizzando meno di una settimana di dati.

    Migliore privacy

    Con il loro studio, i ricercatori sperano di aumentare la consapevolezza del pubblico e promuovere normative più severe per la condivisione dei dati dei consumatori. "Tutti i dati con i timbri di posizione (che sono la maggior parte dei dati raccolti oggi) sono potenzialmente molto sensibili e dovremmo tutti prendere decisioni più informate su con chi condividerli, " Afferma Ratti. "Dobbiamo continuare a pensare alle sfide nell'elaborazione di dati su larga scala, sugli individui, e il modo giusto per fornire garanzie adeguate per preservare la privacy".

    A quello scopo, Ratti, Condor, e altri ricercatori hanno lavorato a lungo sulle questioni etiche e morali dei big data. Nel 2013, il Senseable City Lab del MIT ha lanciato un'iniziativa chiamata "Engaging Data, "che coinvolge i leader del governo, gruppi per i diritti alla privacy, accademico, e affari, che studiano come i dati sulla mobilità possono e dovrebbero essere utilizzati dalle aziende di raccolta dati di oggi.

    "Oggi il mondo è inondato di big data, " dice Kondor. "Nel 2015, l'umanità ha prodotto tante informazioni quante ne sono state create in tutti gli anni precedenti della civiltà umana. Sebbene i dati significhino una migliore conoscenza dell'ambiente urbano, attualmente gran parte di questo patrimonio di informazioni è detenuto da poche aziende e istituzioni pubbliche che ci conoscono molto, mentre sappiamo così poco di loro. Dobbiamo stare attenti a evitare monopoli e usi impropri dei dati".

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.




    © Scienza https://it.scienceaq.com