• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • I set di dati modificati possono comunque fornire integrità statistica e preservare la privacy

    Le reti sintetiche possono aumentare la disponibilità di alcuni dati pur proteggendo la privacy individuale o istituzionale, secondo uno statistico della Penn State.

    "Il mio interesse principale è lo sviluppo di una metodologia che consenta una condivisione più ampia di dati riservati in un modo che possa aiutare nella scoperta scientifica, " disse Aleksandra Slavkovic, professore di statistica e decano associato per la formazione universitaria, Eberly College of Science, Penn State. "Essere in grado di condividere dati riservati con un rischio quantificabile minimo per la scoperta di informazioni sensibili e garantire comunque l'accuratezza e l'integrità statistica, è l'obiettivo".

    Slavkovic ha trovato soluzioni a questo problema di privacy dei dati attraverso collaborazioni interdisciplinari, soprattutto con gli scienziati informatici e sociali. La sua ricerca si concentra su vari dati, compresi i dati di rete che acquisiscono informazioni sulle relazioni tra entità come individui o istituzioni. Ha riferito i suoi approcci alla fornitura di reti sintetiche che soddisfano una nozione di privacy differenziale oggi (16 febbraio) durante la riunione annuale del 2019 dell'American Association for the Advancement of Science a Washington, D.C.

    La privacy differenziale fornisce una garanzia matematicamente dimostrabile del livello di perdita della privacy per gli individui.

    Gli scienziati vogliono accedere ai dati raccolti da altri per le loro ricerche, ma tale accesso potrebbe anche compromettere la privacy personale, anche dopo la rimozione dei cosiddetti dati di identificazione personale.

    "L'abbondanza di dati ausiliari è il principale colpevole, " ha detto Slavkovic. "Con i progressi metodologici e tecnologici nella raccolta dei dati e nel record linkage, accesso più facile a una varietà di fonti di dati che potrebbero essere collegate a un set di dati in mano, e i requisiti delle agenzie di finanziamento per condividere i dati, i rischi per la privacy dei dati sono in aumento. Ma, trovare buone soluzioni per gestire la perdita della privacy è essenziale per consentire una solida scoperta scientifica".

    Informazioni pubblicamente disponibili da una sperimentazione farmacologica su un farmaco per l'HIV, Per esempio, indicherebbe chi era nel gruppo di trattamento e chi era nel gruppo di controllo. Il gruppo di trattamento conterrebbe solo persone con diagnosi di HIV e anche se i proprietari dei dati hanno nascosto i dettagli personali da quel set di dati, rimarrebbero alcune informazioni identificative. Poiché oggi sono disponibili così tante informazioni online nei social media e in altri set di dati, è possibile unire i puntini e identificare le persone, potenzialmente rivelando il loro stato di HIV.

    "Tecniche per collegare due set di dati, diciamo i registri degli elettori e i dati dell'assicurazione sanitaria, sono notevolmente migliorati, " ha detto Slavkovic. "In una delle prime scoperte, Latanya Sweeny (ora ad Harvard) ha mostrato che collegando questo tipo di dati, puoi identificare l'87 percento delle persone nel censimento degli Stati Uniti dal 1990 in base alla loro data di nascita, sesso e codice postale a 5 cifre. Più recentemente, i ricercatori hanno utilizzato i tweet e i metadati di Twitter associati per dimostrare di poter identificare gli utenti con una precisione del 96,7%".

    Slavkovic osserva che non sono solo le persone o le istituzioni i cui dati sono contenuti nei database, ma che anche le persone al di fuori del database possono soffrire di violazione della privacy, direttamente o per associazione. I collegamenti tra le informazioni in un set di dati e le informazioni sui social media potrebbero portare a una grave violazione della privacy:qualcosa come lo stato di HIV o l'orientamento sessuale potrebbe avere gravi ripercussioni se rivelato.

    Mentre la privacy è importante, i set di dati raccolti costituiscono una fonte essenziale di informazioni per i ricercatori. Attualmente, in alcuni casi quando i dati sono eccezionalmente sensibili, i ricercatori devono recarsi fisicamente negli archivi di dati per svolgere le loro ricerche, rendendo la ricerca più difficile e costosa.

    Slavkovic è interessato ai dati di rete. Informazioni che mostrano l'interconnessione di persone o istituzioni, i nodi, e le connessioni tra i nodi. Il suo approccio è quello di creare leggermente alterato, set di dati di rete con mirroring con alcuni dei nodi spostati, connessioni spostate o bordi alterati.

    "L'obiettivo è creare nuove reti che soddisfino i rigorosi requisiti differenziali di privacy e allo stesso tempo acquisiscano la maggior parte delle caratteristiche statistiche della rete originale, ", ha detto Slavkovic.

    Questi set di dati sintetici potrebbero essere sufficienti per alcuni ricercatori per soddisfare le loro esigenze di ricerca. Per gli altri, sarebbe sufficiente testarne gli approcci e le ipotesi prima di doversi recare nel sito di conservazione dei dati. I ricercatori potrebbero testare il codice, fare ricerche esplorative e forse analisi di base in attesa del permesso di utilizzare i dati originali nel suo sito di archiviazione.

    "Non possiamo soddisfare le richieste di tutte le analisi statistiche con lo stesso tipo di dati alterati, " ha detto Slavkovic. "Alcune persone avranno bisogno dei dati originali, ma altri potrebbero fare molta strada con dati sintetici come le reti sintetiche".


    © Scienza https://it.scienceaq.com