• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Gli strumenti di analisi dei big data di nuova generazione daranno un senso allo streaming dei dati in tempo reale

    Elke Rundensteiner, Giusto, professore di informatica al Worcester Polytechnic Institute (WPI), e dottoranda Allison Rozet, stare accanto a un banco di prova per veicoli autonomi utilizzato nella ricerca presso il WPI. Gli strumenti di analisi che Rundensteiner e Rozet stanno sviluppando potrebbero rendere più sicure le auto senza conducente analizzando lo streaming di dati dai veicoli in tempo reale. Credito:Istituto Politecnico di Worcester

    Un nuovo strumento di analisi dei big data in fase di sviluppo da parte di scienziati informatici presso il Worcester Polytechnic Institute (WPI) aiuterà le aziende a dare un senso, in tempo reale, del diluvio di dati che fluisce verso di loro come l'acqua da una manichetta antincendio.

    Con un triennio, $ 499, 753 sovvenzione della National Science Foundation, Elke Rundensteiner, professore di informatica e direttore del Data Science Program di WPI, sta guidando un team di studenti di informatica e scienze dei dati che sta costruendo uno strumento di analisi delle tendenze degli eventi di nuova generazione noto come SETA (Scalable Event Trend Analytics). Questo software open source verrà utilizzato non solo per trovare modelli in tempo reale, flussi di dati ad alto volume ("dati in movimento"), ma analizzare quei modelli e dar loro un senso al volo per prendere decisioni just-in-time.

    SETA potrebbe consentire alle grandi imprese, siti di social media, centri di rilevamento delle frodi, reti di veicoli autonomi, governi, e altri utenti per sfruttare il flusso continuo di big data in entrata e trasformarli in informazioni fruibili che potrebbero consentire loro di essere sempre più reattivi e competitivi. "In un mondo in cui i big data accelerano continuamente in termini di volume e velocità, l'analisi dei dati in streaming in tempo reale è diventata sempre più critica, " disse Rundensteiner, un esperto riconosciuto a livello internazionale nell'elaborazione di flussi di dati scalabili.

    L'elaborazione degli eventi è un modo per tracciare e analizzare i flussi di informazioni in entrata, come acquisti online, l'aumento e la diminuzione del prezzo di un'azione, il periodo di tempo in cui gli utenti rimangono su un sito web, o se gli operatori sanitari si lavano le mani prima di entrare nelle stanze dei pazienti. Si tratta di segnalare eventi importanti nei dati in entrata, in modo che un'organizzazione possa rispondervi in ​​tempo reale. SETA sarà in grado di gestire query e analisi complesse, fornendo agli utenti approfondimenti riepilogati in modo più economico e veloce di quanto sia attualmente possibile.

    La maggior parte degli strumenti di analisi dei dati esistenti non sono progettati per funzionare con i dati in streaming, ha notato Rundensteiner. Anziché, le informazioni devono essere archiviate in un database statico prima di poter essere analizzate, introducendo un ritardo che potrebbe impedire il rilevamento rapido, Per esempio, dell'inizio di un focolaio di malattie infettive in un ospedale. Gli strumenti di Rundensteiner operano sui dati mentre vengono generati, permettendo di individuare in tempo reale anche pattern complessi, in modo che le decisioni critiche possano essere prese rapidamente.

    "I flussi di dati stanno aumentando a un ritmo drammatico, aziende travolgenti che non riescono a dare un senso ai propri dati in tempo reale, " Rundensteiner ha detto. "Trovando modi per gestire questi live streaming, stiamo aprendo nuovi orizzonti nell'analisi dei dati. Potresti inserire tutti questi big data in un database statico e guardarlo in seguito, ma se vuoi scoprire un acquisto fraudolento con carta di credito mentre sta accadendo o avvisare una rete di auto a guida autonoma di un incidente imminente, è necessario analizzare tali informazioni mentre vengono trasmesse alla velocità di decine di migliaia di dati al microsecondo".

    Con il nuovo premio, Rundensteiner si baserà sulla sua precedente ricerca sponsorizzata dalla NSF nell'analisi del flusso di eventi, che si è concentrato sulla ricerca di modelli nei dati in streaming. Quel lavoro (in collaborazione con ex dottorandi, Olga Poppe, un ricercatore presso Microsoft Gray Systems Lab, Chuan Lei, un membro del personale di ricerca presso l'IBM Almaden Research Center, e Di Wang, un ricercatore presso Facebook), ha prodotto strumenti di analisi che hanno consentito agli utenti di interrogare un flusso di dati per sequenze di eventi relativamente semplici. Ma se il software ha trovato molte istanze delle stesse o simili sequenze e le ha visualizzate tutte, l'utente si sentirebbe spesso sopraffatto e perderebbe i modelli significativi o le tendenze generali attraverso i modelli.

    Invece di visualizzare le sequenze rilevate una per una, il nuovo strumento che Rundensteiner sta sviluppando aggregherà questi modelli e mostrerà all'utente quante volte si verifica ciascuno di essi. "Mostrando un picco di attività anormale, il sistema ti permette di vedere molto velocemente cosa sta succedendo, " ha detto. "A volte sono più interessato alla deviazione dal conteggio tipico dei modelli perché poi so immediatamente se sta accadendo qualcosa di anomalo. Se un'auto autonoma sterza, potrebbe non significare nulla. Ma se mille auto sullo stesso tratto di strada mostrano tutte un comportamento deviante, allora sta succedendo qualcosa di reale. Puoi quindi scavare più a fondo in quel particolare sottoinsieme di dati per esplorare questo comportamento imprevisto".

    Lo sviluppo degli strumenti per scavare più a fondo in questi aggregati di pattern è un altro elemento della ricerca su SETA. Rundensteiner vuole consentire agli utenti di cercare modelli molto più sofisticati. Per esempio, mentre il suo strumento precedente poteva essere usato per cercare una sequenza di lunghezza fissa (diciamo, casi di un veicolo che aziona i freni, sterzando, e poi fermarsi), lei vuole renderlo possibile, con un'unica semplice query di flusso, individuare sequenze che coinvolgono un numero illimitato di istanze (un'auto che sterza un numero sconosciuto di volte, frenare ripetutamente, e poi si ferma, Per esempio). Mentre il numero di potenziali corrispondenze a tale query potrebbe crescere in modo esponenziale a causa della complessità del linguaggio di query, i risultati promettono di essere più utili, lei disse.

    Per creare nuovi strumenti di analisi delle tendenze degli eventi, Rundensteiner deve prima progettare un nuovo linguaggio di interrogazione, che viene utilizzato per trovare e recuperare modelli nei dati. Consentendo agli utenti di cercare modelli più complicati, la nuova lingua renderà lo strumento molto più facile da usare. Sta anche costruendo un nuovo "motore di query" per elaborare queste query sofisticate e trovare i modelli o gli eventi richiesti. Un motore distribuito, verrà eseguito su più server attraverso una rete cloud, aumentando drasticamente la sua velocità.

    "Costruire quel motore è una parte fondamentale del progetto, " ha detto. "Tradizionalmente, un motore potrebbe generare tutte le risposte a una query, conservarli, e poi inizia a contarli. È troppo dispendioso in termini di tempo e denaro. La tecnologia attuale potrebbe richiedere ore, o anche più a lungo, per elaborare una query complicata. Il nostro impiegherà pochi secondi. Non ha senso porsi queste grandi domande se devi aspettare giorni per le risposte".

    Il nuovo software di analisi delle tendenze degli eventi, che sta sviluppando con Allison Rozet, un dottorato di ricerca candidato in scienza dei dati, sarà testato utilizzando set di dati e applicazioni del mondo reale forniti da un centro sanitario e da una società di elaborazione di transazioni finanziarie.

    "In campo sanitario, questo potrebbe salvare vite, " Rundensteiner ha detto. "Potremmo rilevare modelli che mostrano come l'infezione si sta diffondendo. Potremmo vedere quando, Per esempio, il personale non indossa camici chirurgici o si lava le mani. Possiamo quindi vedere i problemi mentre si dispiegano, così possiamo vedere dove hanno origine i problemi. Stiamo realizzando strumenti migliori per ottenere le risposte di cui abbiamo bisogno da un flusso crescente di informazioni in arrivo".


    © Scienza https://it.scienceaq.com