Credito:CC0 Dominio pubblico
I data lake consentono di aggiungere informazioni a un sistema senza pre-elaborazione o modellazione. Contrasta questo con un database convenzionale in cui i dati devono essere consegnati in modo molto più raffinato e formale. Pertanto, un data lake offre una velocità di ingresso molto più tempestiva. Però, come mostra una ricerca dal Brasile, anche se un data lake conserva il più alto livello di granularità dei dati, anche quella flessibilità utile può essere problematica. "Se non gestito, è facile perdere il controllo del repository a causa del volume che contiene e della sua crescita, " spiega la squadra.
I ricercatori spiegano inoltre che i data lake non hanno la semantica di un database convenzionale, ma mentre questo può essere vantaggioso nell'evitare certi tipi di bias durante la riestrazione e l'analisi dei giorni, significa che comprendere i contenuti del data lake può diventare un compito piuttosto ingombrante. Questo, il team suggerisce, ha forse minato l'adozione e l'uso diffusi di data lake all'interno dell'ambiente aziendale e ha ostacolato l'accettazione di questo utile strumento a causa di alcune idee sbagliate su come potrebbero essere utilizzati negli sforzi di data science.
Il team si è ora rivolto a modelli di gestione della conoscenza per aiutarli ad affrontare i problemi associati all'uso dei data lake e ad arricchire i dati che fluttuano all'interno per migliorare l'usabilità delle informazioni. Aggiungono inoltre che attraverso l'uso di una piattaforma del portale di dati e dei metadati associati ritengono che il loro approccio fornirebbe un facile accesso al data lake mantenendo e aumentando la sua utilità e precludendo la sua denigrazione in una cosiddetta palude di dati.