Nove brevi articoli su argomenti parecchio in auge negli ultimi anni, per i quali, nel corso dell’evolversi tecnologico, i concetti, le definizioni ed i limiti gradualmente svaniscono e risulta a volte confuso spiegare “chi è chi” in modo abbastanza semplice.
La frase attribuita ad Einstein "Non capisci veramente qualcosa finché non puoi spiegarlo a tua nonna", ha una variante che utilizza un bambino di 6 anni al posto della nonna, ma, visto che si parla di tecnologia, adotterò la prima.
Definizione
Niente di più facile: i Big Data sono semplicemente un'enorme quantità di dati, niente di più.
Per meglio definirli è comune spiegarli con le 3 V, che sono le 3 principali cause coinvolte nella sua origine:
Volume
la quantità di dati raccolti cresce in modo assurdo ad ogni minuto che passa e si ha la necessità di adattare gli strumenti di archiviazione ed elaborazione a quel volume, utilizzando soluzioni distribuite (uso di più macchine, invece di un supercomputer / mainframe, molto costoso).
Velocità
l'urgenza richiesta per il trattamento dei dati è legata alla frequenza della sua generazione/acquisizione e alla necessità di utilizzarli nel processo decisionale il più rapidamente possibile, anche in tempo reale (o quasi).
Varietà
i dati non sono più (solo) strutturati, va quindi dimenticato che tutto possa essere inserito in un database tradizionale. Si deve essere pronti ad aggiungere nuove fonti di dati, con tutti i tipi di formati, che vanno dal testo normale ai contenuti multimediali.
Con il passare del tempo, sono state aggiunte altre V allo schema:
I Big Data costituirebbero l'insieme di soluzioni che cercano di affrontare tutti questi problemi, sono tutto ciò che abilita o facilita l'applicazione dei progressi nel campo della Data Science, quando la natura dei dati lo richiede.
I data scientist stanno cercando di ottenere risposte da un set di dati, che non solo supera la dimensione della RAM, ma supera anche la dimensione del disco rigido.
Per affrontare questo, i Big Data forniscono tecnologie di archiviazione distribuita per ospitare i dati su più macchine e anche tecnologie di elaborazione distribuita per gestirli in parallelo.