• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Altro
    L'hashing dei dati migliora la stima del numero di vittime nei database

    Carri armati distrutti davanti a una moschea ad Azaz, Siria, nel 2012. Credito:Christiaan Triebert tramite Wikimedia Commons

    I ricercatori della Rice University e della Duke University stanno utilizzando gli strumenti di statistica e data science in collaborazione con Human Rights Data Analysis Group (HRDAG) per stimare in modo accurato ed efficiente il numero di vittime identificate uccise nella guerra civile siriana.

    In un documento disponibile online e in attesa di pubblicazione nel numero di giugno del Annali di statistica applicata , gli scienziati riferiscono di uno sforzo di quattro anni per combinare un metodo di indicizzazione dei dati chiamato "hashing con stima statistica". Il nuovo metodo produce stime in tempo reale di documentati, vittime identificate con un margine di errore di gran lunga inferiore rispetto ai metodi statistici esistenti per la ricerca di record duplicati nei database.

    "Eliminare i record duplicati è facile se tutti i dati sono puliti:i nomi sono completi, l'ortografia è corretta, le date sono esatte, eccetera., ", ha affermato la coautrice dello studio Beidi Chen, uno studente laureato Rice in informatica. "I dati sulle vittime di guerra non sono così. Le persone usano i soprannomi. Le date sono a volte incluse in un database ma mancano da un altro. È un classico esempio di ciò che chiamiamo set di dati "rumoroso". La sfida è trovare un modo per stimare accuratamente il numero di record unici nonostante questo rumore."

    Utilizzando i record di quattro database di persone uccise nella guerra siriana, Chen, La statistica Duke ed esperta di machine learning Rebecca Steorts e l'informatico Rice Anshumali Shrivastava hanno stimato che fossero 191, 874 individui unici documentati da marzo 2011 ad aprile 2014. Questo è molto vicino alla stima di 191, 369 compilato nel 2014 da HRDAG, un'organizzazione senza scopo di lucro che aiuta a costruire scientificamente difendibili, argomenti basati sull'evidenza delle violazioni dei diritti umani.

    Ma mentre la stima di HRDAG si basava sugli sforzi scrupolosi dei lavoratori umani per eliminare con cura potenziali record duplicati, l'hashing con la stima statistica si è rivelato più veloce, più facile e meno costoso. I ricercatori hanno affermato che l'hashing ha anche l'importante vantaggio di un intervallo di confidenza netto:l'intervallo di errore è più o meno 1, 772, o meno dell'1 per cento del numero totale delle vittime.

    "La grande vittoria di questo metodo è che possiamo calcolare rapidamente il probabile numero di elementi univoci in un set di dati con molti duplicati, " ha detto Patrick Ball, Direttore della ricerca di HRDAG. "Possiamo fare molto con questa stima".

    Shrivastava ha affermato che la precisione della stima dell'hashing è dovuta alla tecnica utilizzata per indicizzare i registri delle vittime. L'hashing implica la conversione di un record di dati completo:un nome, Data, luogo di morte e sesso nel caso di ogni vittima della guerra siriana, in un numero chiamato hash. Gli hash sono prodotti da un algoritmo che considera le informazioni alfanumeriche in un record, e sono memorizzati in una tabella hash che funziona in modo molto simile all'indice in un libro. Maggiore è la somiglianza testuale tra due record, più vicini sono i loro hash nella tabella.

    "Il nostro metodo - stima dell'entità unica - potrebbe rivelarsi utile al di là del solo conflitto siriano, " disse Steorts, assistente professore di scienze statistiche alla Duke.

    Ha detto che l'algoritmo e la metodologia potrebbero essere utilizzati per le cartelle cliniche, statistiche ufficiali e applicazioni di settore.

    "Man mano che raccogliamo sempre più dati, la duplicazione sta diventando un problema più attuale e socialmente importante, " Steorts ha detto. "I problemi di risoluzione delle entità devono raggiungere milioni e miliardi di record. Certo, il modo più accurato per trovare record duplicati è far controllare ogni record da un esperto. Ma questo è impossibile per grandi set di dati, poiché il numero di coppie che devono essere confrontate cresce drammaticamente all'aumentare del numero di record."

    Per esempio, un'analisi record per record di tutti e quattro i database di guerra siriani comporterebbe circa 63 miliardi di confronti accoppiati, lei disse.

    Shrivastava, assistente professore di informatica alla Rice, disse, "Se fai delle ipotesi, come le date vicine potrebbero essere duplicati, puoi ridurre il numero di confronti necessari, ma ogni ipotesi viene con un pregiudizio, e alla fine vuoi una stima imparziale. Un approccio statistico che evita distorsioni è il campionamento casuale. Quindi forse scegli 1 milione di coppie casuali su 63 miliardi, vedere quanti sono i duplicati e quindi applicare tale tasso all'intero set di dati. Questo produce una stima imparziale, che è buono, ma la probabilità di trovare duplicati puramente casuali è piuttosto bassa, e questo dà una varianza elevata.

    "In questo caso, Per esempio, il campionamento casuale potrebbe anche stimare i conteggi documentati intorno a 191, 000, " ha detto. "Ma non poteva dirci con certezza se il conteggio era 176, 000 o 216, 000 o un numero intermedio.

    "Negli ultimi lavori, il mio laboratorio ha dimostrato che gli algoritmi di hashing originariamente progettati per eseguire la ricerca possono essere utilizzati anche come campionatori adattivi che mitigano con precisione l'elevata varianza associata al campionamento casuale, " disse Shrivastava.

    "Risolvere ogni duplicato sembra molto allettante, " Egli ha detto, "ma è il modo più difficile di stimare il numero di entità uniche. La nuova teoria del campionamento adattivo con hashing ci consente di stimare direttamente il numero di entità uniche in modo efficiente, con grande fiducia, senza risolvere i duplicati."

    "Alla fine del giorno, è stato fenomenale fare progressi metodologici e algoritmici motivati ​​da un problema così importante, " Steorts ha detto. "HRDAG ha spianato la strada. Il nostro obiettivo e la speranza è che i nostri sforzi si rivelino utili al loro lavoro".

    Shrivastava e Steorts hanno affermato che stanno pianificando ricerche future per applicare la tecnica di hashing per l'approssimazione di entità uniche ad altri tipi di set di dati.


    © Scienza https://it.scienceaq.com