Qual è la differenza tra statistica e data science e, forse più importante, perché abbiamo due campi con quello che sembra essere lo stesso focus? Il modo migliore per comprendere l'emergere della scienza dei dati come disciplina separata, spiega Herman "Gene" Ray, direttore del Center for Statistics and Analytical Research presso la Kennesaw State University, è vedere la scienza dei dati come la fusione di informatica e statistica. "La maggior parte dei programmi di statistica tradizionali ti insegnano un sacco di teoria e come risolvere i problemi a mano, " dice. "Le applicazioni per computer sono una sorta di ripensamento. Ma le aziende non analizzeranno manualmente 100 milioni di record; hanno a che fare con enormi campioni di convenienza. Ed è qui che entra in gioco la scienza dei dati".
Ed è qui che inizia la lotta interna accademica:gli statistici affermano che gli scienziati dei dati non dispongono delle basi statistiche o matematiche per comprendere la raccolta e l'analisi dei dati, e gli scienziati dei dati alzano gli occhi agli statistici per la loro mancanza di conoscenza della programmazione. Questo, dice Ray, è stato il più grande ostacolo che hanno dovuto affrontare nella creazione di uno dei primi dottorati di ricerca statunitensi. programmi di analisi e data science:come fare unisci statistica e informatica? "Ciascuno pensa di poterlo fare senza l'altro, " dice. "Ma la realtà è che la maggior parte degli statistici non sono programmatori molto bravi, e la maggior parte degli scienziati informatici non comprende realmente alcune delle sfumature delle statistiche. Il nostro obiettivo è colmare questo divario".
La loro soluzione, in parte, ha sfruttato la crescente consapevolezza tra le aziende dell'area di Atlanta dell'importanza dei dati. L'Analytics and Data Science Institute ha creato nove laboratori di ricerca sponsorizzati, ciascuno focalizzato sui problemi relativi ai dati che devono affrontare un'azienda o un servizio pubblico o un'organizzazione non profit, e ciascuno con uno o quattro dottorati di ricerca. studenti guidati da un docente. "Sono come think tank in miniatura che esplorano i problemi del mondo reale, " dice Ray. "E così facendo, gli studenti riescono a comprendere il problema dal punto di vista dell'informatica e della statistica." Uno studente di statistica con una mentalità più tradizionale potrebbe essere incoraggiato da un collega a esplorare le reti neurali, mentre uno studente di informatica con una mentalità più tradizionale potrebbe essere incoraggiato a capire perché deve usare il campionamento rappresentativo rispetto al campionamento di convenienza.
Un progetto recente ha coinvolto il lavoro con i vigili del fuoco della contea di Cobb, un sobborgo di Atlanta, che non soddisfaceva le metriche nazionali per gli standard antincendio. "Abbiamo preso tutti i loro dati per eventi antincendio e ambulanza:dall'ora della prima telefonata al momento in cui l'ambulanza ha lasciato la caserma dei pompieri al tempo impiegato per arrivare a un evento. Abbiamo esaminato i percorsi e i modelli di traffico, e quindi tempi di risposta ottimizzati utilizzando la teoria dell'innesto e Google Maps." I percorsi sono stati modificati, zone di fuoco riassegnate, e i tempi di risposta sono stati ridotti. "Il capo dei vigili del fuoco della contea di Cobb è molto esperto di dati, "dice Raggio, "quindi sta implementando modifiche incrementali e poi sta vedendo come i dati si aggiornano."
I laboratori di ricerca aggiungono anche un'altra dimensione, e sempre più importante, all'esperienza degli studenti:come parlare con persone che non sono statistici o scienziati dei dati.
"Quando sono stato addestrato, l'aspettativa era che avrei lavorato con altri statistici e che avrei partecipato a conferenze accademiche, "dice Ray. "Allora, parlavamo tutti la stessa lingua. Oggi, uno scienziato dei dati potrebbe parlare con un dirigente, o cliente, o politico, che ha un background statistico molto scarso. Devono essere in grado di leggerlo molto velocemente, e assicurati che il messaggio giusto sia ancora comunicato al livello appropriato. Questa è una delle cose belle di questi laboratori:costringono tutti a imparare a parlare in modo che il laboratorio abbia successo".