A differenza dei sistemi di archiviazione dati appositamente progettati, un data lake può essere utilizzato per scaricare i dati nella loro forma originale. Questi dati di solito rimangono non controllati. Credito:Shutterstock.com
Le macchine e Internet sono intessute nel tessuto della nostra società. Un numero crescente di utenti, dispositivi e applicazioni lavorano insieme per produrre ciò che oggi chiamiamo "big data". E questi dati aiutano a guidare molti dei servizi quotidiani a cui accediamo, come quello bancario.
Un confronto tra le istantanee di Internet del 2018 e del 2019 mette in luce la velocità crescente con cui le informazioni digitali vengono scambiate quotidianamente. La sfida di acquisire e archiviare in sicurezza i dati sta diventando più complicata con il tempo.
È qui che i data warehouse e i data lake sono rilevanti. Entrambi sono spazi online utilizzati dalle aziende per l'elaborazione e l'archiviazione interna dei dati.
Sfortunatamente, da quando il concetto di data lake è nato nel 2010, non è stato fatto abbastanza per affrontare i problemi di sicurezza informatica.
Questi preziosi repository rimangono esposti a un numero crescente di attacchi informatici e violazioni dei dati.
Una panacea proposta per i problemi dei big data
L'approccio tradizionale utilizzato dai fornitori di servizi è quello di archiviare i dati in un "data warehouse", un unico repository che può essere utilizzato per analizzare i dati, creare report, e consolidare le informazioni.
Però, i dati che entrano in un magazzino devono essere preelaborati. Con zettabyte di dati nel cyberspazio, questo non è un compito facile. La pre-elaborazione richiede una notevole quantità di calcolo eseguita da supercomputer di fascia alta, e costa tempo e denaro.
I data lake sono stati proposti per risolvere questo problema. A differenza dei magazzini, possono memorizzare dati grezzi di qualsiasi tipo. I data lake sono spesso considerati una panacea per i problemi dei big data, e sono stati abbracciati da molte organizzazioni che cercano di guidare l'innovazione e nuovi servizi per gli utenti.
James Dixon, il tecnico dei dati statunitense che si dice abbia coniato il termine, descrive i data lake in questo modo:"Se si pensa a un datamart come a un deposito di acqua in bottiglia, pulita, confezionata e strutturata per un facile consumo, il data lake è un grande specchio d'acqua in uno stato più naturale. Il contenuto del flusso di data lake da una sorgente per riempire il lago, e vari utenti del lago possono venire ad esaminare, gettarsi, o prelevare campioni."
Fai attenzione a nuotare in un data lake
Sebbene i data lake creino opportunità per i crunchers di dati, le loro porte digitali rimangono incustodite, e la risoluzione dei problemi di sicurezza informatica rimane un ripensamento.
La nostra capacità di analizzare ed estrarre informazioni dai data lake è minacciata nei regni del cyberspazio. Ciò è evidente attraverso l'elevato numero di recenti violazioni dei dati e attacchi informatici in tutto il mondo.
Con i progressi tecnologici, diventiamo ancora più inclini agli attacchi informatici. Affrontare le attività informatiche dannose dovrebbe essere una priorità nell'attuale clima digitale.
Mentre la ricerca in questo campo è fiorita negli ultimi anni, deve ancora essere stabilito un forte collegamento tra sicurezza informatica efficace e data lake.
Non è raro essere compromessi
A causa dei progressi nel software dannoso, in particolare nell'offuscamento del malware, è facile per gli hacker nascondere un virus pericoloso all'interno di un file dall'aspetto innocuo.
Gli attacchi di false data injection sono aumentati negli ultimi dieci anni.
L'attacco avviene quando un criminale informatico sfrutta strumenti liberamente disponibili per compromettere un sistema connesso a Internet, per iniettarlo con dati falsi.
I dati esterni iniettati ottengono l'accesso non autorizzato al data lake e manipolano i dati archiviati per fuorviare gli utenti. Ci sono molti potenziali motivatori dietro un simile attacco.
Componenti dei data lake
L'architettura del data lake può essere suddivisa in tre componenti:data ingestion, archiviazione e analisi dei dati.
L'ingestione di dati si riferisce ai dati che arrivano nel lago da una vasta gamma di fonti. Questo di solito accade senza politiche di sicurezza legittime in atto. Quando i dati in entrata non vengono controllati per le minacce alla sicurezza, viene presentata un'opportunità d'oro per i criminali informatici per iniettare dati falsi.
Il secondo componente è l'archiviazione dei dati, che è dove vengono scaricati tutti i dati grezzi. Ancora, questo accade senza considerazioni di sicurezza informatica considerevoli.
La componente più importante dei data lake è l'analisi dei dati, che unisce le competenze di analisti, scienziati e responsabili dei dati. L'obiettivo dell'analisi dei dati è progettare e sviluppare algoritmi di modellazione in grado di utilizzare dati grezzi per produrre informazioni significative.
Ad esempio, l'analisi dei dati è il modo in cui Netflix apprende le abitudini di visualizzazione dei suoi abbonati.
Sfide future per gli esperti di dati
Il minimo cambiamento o manipolazione nei data lake può fuorviare enormemente i data crunchers e avere un impatto diffuso.
Ad esempio, i data lake compromessi hanno enormi implicazioni per l'assistenza sanitaria, perché qualsiasi deviazione nei dati può portare a una diagnosi errata, o addirittura vittime.
Anche, le agenzie governative che utilizzano data lake compromessi possono affrontare il caos negli affari internazionali e nelle situazioni commerciali. La difesa, finanza, Anche i settori della governance e dell'istruzione sono vulnerabili agli attacchi dei data lake.
Considerando il volume di dati archiviati nei data lake, le conseguenze degli attacchi informatici sono tutt'altro che banali.
E poiché la generazione di enormi quantità di dati nel mondo di oggi è inevitabile, è fondamentale che gli architetti di data lake si impegnino di più per garantire che questi data depot a rischio siano gestiti correttamente.
Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.