Data Lake

Nove brevi articoli su argomenti parecchio in auge negli ultimi anni, per i quali, nel corso dell’evolversi tecnologico, i concetti, le definizioni ed i limiti gradualmente svaniscono e risulta a volte confuso spiegare “chi è chi” in modo abbastanza semplice.

La frase attribuita ad Einstein "Non capisci veramente qualcosa finché non puoi spiegarlo a tua nonna", ha una variante che utilizza un bambino di 6 anni al posto della nonna, ma, visto che si parla di tecnologia, adotterò la prima.

Definizione

Un Data Lake è un repository di archiviazione centralizzato, utilizzato per archiviare dati di ogni tipo:

Strutturato (i dati che abbiamo usato per mettere in tabelle, perfettamente definiti)
Semi-strutturato (dati che seguono un formato in cui quasi tutto si adatta: CSV, log, JSON, XML, ecc.)
Non Strutturato (documenti, e-mail, PDF, immagini, video, audio, ecc.).

Non ha alcuna importanza se i dati vengono generati internamente o al di fuori della nostra attività.

Essere centralizzati implica che tutto verrà archiviato nello stesso posto e tutti vi accederanno per ottenere i dati.

Questo però non implica che tutti i dati siano nella stessa macchina o all'interno dell'azienda: lo storage distribuito verrà quasi utilizzato come regola e i dati potrebbero (come in effetti é) anche essere nel cloud.

Non va trascurato un dettaglio cruciale: i dati vengono memorizzati in formato raw (ovvero grezzo, inteso come quello originale), senza alcuna modifica.

Ciò implica che nessuna informazione viene persa per eventuali analisi future; i dati verranno elaborati e trasformati solo nel momento in cui vengono utilizzati.

Un po' come dire, ironizzando sull'immagine sopra, che non avrebbe senso cucinare i pesci prima di metterli in un lago :)