Nove brevi articoli su argomenti parecchio in auge negli ultimi anni, per i quali, nel corso dell’evolversi tecnologico, i concetti, le definizioni ed i limiti gradualmente svaniscono e risulta a volte confuso spiegare “chi è chi” in modo abbastanza semplice.
La frase attribuita ad Einstein "Non capisci veramente qualcosa finché non puoi spiegarlo a tua nonna", ha una variante che utilizza un bambino di 6 anni al posto della nonna, ma, visto che si parla di tecnologia, adotterò la prima.
Definizione
Un Data Lake è un repository di archiviazione centralizzato, utilizzato per archiviare dati di ogni tipo:
Non ha alcuna importanza se i dati vengono generati internamente o al di fuori della nostra attività.
Essere centralizzati implica che tutto verrà archiviato nello stesso posto e tutti vi accederanno per ottenere i dati.
Questo però non implica che tutti i dati siano nella stessa macchina o all'interno dell'azienda: lo storage distribuito verrà quasi utilizzato come regola e i dati potrebbero (come in effetti é) anche essere nel cloud.
Non va trascurato un dettaglio cruciale: i dati vengono memorizzati in formato raw (ovvero grezzo, inteso come quello originale), senza alcuna modifica.
Ciò implica che nessuna informazione viene persa per eventuali analisi future; i dati verranno elaborati e trasformati solo nel momento in cui vengono utilizzati.
Un po' come dire, ironizzando sull'immagine sopra, che non avrebbe senso cucinare i pesci prima di metterli in un lago :)