Come si è visto in tutto questo corso, i dati hanno un ruolo critico nella nostra società e ci permettono di comprendere il mondo che ci circonda. Negli ultimi decenni, l'esplosione di internet e dei servizi del Web 2.0 tanto quanto quella dei dispositivi cellulari e dei sensori hanno portato alla produzione di quantità enormi di dati.
La combinazione del "torrente crescente” di dati generati e la disponibilità di tecnologie computazionali a richiesta (come il cloud computing) ha determinato lo sviluppo del concetto di big data, in riferimento ai dati che superano le capacità di elaborazione dei sistemi di database convenzionali.
Definizioni di big data
I big data vengono solitamente definiti come una "grande quantità di dati prodotti molto velocemente da un grande numero di fonti diverse".
Un elemento di definizione soggettivo stabilisce la grandezza in base alla quale una serie di dati può essere considerata big data. Non si fa riferimento al numero di byte, sulla cui base si misurano solitamente i dati (per esempio in gigabytes). Con i rapidi progressi fatti dalla tecnologia e con un numero sempre crescente di dispositivi connessi ad internet aumenta anche il numero dei dati prodotti.
La grandezza dei quantitativi di dati che si qualificano come big data potrebbe anch'essa aumentare nel tempo. Inoltre ciò che risulta “big” per un'organizzazione, un settore o un paese potrebbe sembrare piccolo per un altro. Si pensi ad Apple in confronto ad una piccola azienda o al Portogallo in confronto con la Cina.
Noi lasciamo enormi scie di dati
Nel 2020 abbiamo dovuto affrontare la sfida più grande e più globale mai vista. Eravamo già “connessi” ma all'improvviso ogni aspetto della nostra vita, dal fare esercizio fino a lavorare e studiare, si è trasferito online. I negozi, le palestre, gli uffici, i ristoranti ed i cinema sono stati chiusi. L'unico modo per lavorare (per coloro che non erano in prima linea), studiare, comunicare, comprare mobili, socializzare o guardare un film era attraverso internet. Non potevamo nemmeno andare a trovare ed abbracciare le nostre famiglie.
Questa situazione ha portato ad un aumento della digitalizzazione del mondo. In una giornata qualsiasi ognuno di noi può:
Comunicare usando messaggi di WhatsApp
Navigare e cercare qualcosa online
Fare la spesa ed acquistare servizi o attrezzature online
Condividere una foto carina dei nostri amici pelosi o un documento di lavoro
Guardare una serie su Netflix o Amazon Prime Video prima di andare a dormire
Ascoltare musica su SoundCloud, Spotify o YouTube
Comprare e leggere un libro su un e-reader
Si provi a moltiplicare tutto ciò per i milioni di utenti che usano un telefono o un computer (o entrambi!) ogni giorno.
La nostra impronta digitale
Quasi tutte le azioni che facciamo oggi lasciano una traccia digitale. Generiamo dati ogni volta che portiamo con noi i nostri smartphone dotati di sensori, quando facciamo una ricerca online, quando comunichiamo con i nostri familiari e con gli amici utilizzando i social media o le applicazioni di chat e quando facciamo acquisti. Lasciamo un'impronta digitale dopo ogni azione digitale e a volte anche in modo inconsapevole o involontario.
Vi siete mai chiesti come fanno aziende come Amazon, Spotify o Netflix a sapere cosa ci “potrebbe anche interessare”? I motori di raccomandazione sono un'applicazione tipica dei big data. Amazon, Netflix e Spotify utilizzano algoritmi basati su big data per formulare delle raccomandazioni specifiche basate sulle nostre preferenze ed il nostro comportamento tipico. Siri ed Alexa fanno affidamento sui big data per rispondere alle varie domande che gli utenti gli sottopongono. Google è ormai capace di dare suggerimenti sulla base dei big data contenuti nel dispositivo di un utente. Ma in che modo tali raccomandazioni influenzano il modo in cui passiamo il nostro tempo, i prodotti che acquistiamo e le opinioni che leggiamo? Perché queste grandi aziende investono così tanti soldi in questo ambito? Ci conoscono soltanto o sono anche capaci di influenzarci? Per quanto i sistemi di raccomandazione rappresentino un terzo del traffico su molti siti molto visitati, non conosciamo quale sia il loro potere nell'influenzare le nostre decisioni.
Cosa sa il tuo telefono di te?
Vi siete mai chiesti cosa sappia il proprio telefono di noi, del nostro comportamento, dei nostri sentimenti, del nostro umore o delle nostre condizioni di salute? Gli smartphone hanno molti potenti sensori che generano di continuo dati su di noi per renderci la vita più semplice. Dove si trova la linea di demarcazione tra privacy, protezione dei dati e praticità? Questo è quello che ognuno deve prendere in considerazione e decidere.
I big data combinano dati strutturati, semi strutturati e non strutturati che possono venir estrapolati per essere trasformati in informazione ed impiegati per il machine learning, per le statistiche predittive ed altre applicazioni analitiche di tipo avanzato. I dati strutturati sono dati che possono essere organizzati in linee e colonne o in database relazionali; i dati non strutturati sono invece dati che non sono organizzati in modo predefinito, per esempio i Tweet, i post di un blog, le foto, i numeri e perfino i dati video.
Le organizzazioni impiegano sistemi specifici per stoccare ed elaborare i big data, i quali vengono chiamati architettura di gestione dei dati.
Le caratteristiche dei big data
La caratterizzazione dei big data più ampiamente accettata è quella che segue le tre V coniate da Doug Laney nel 2001: l'alto volume dei dati generati, la grande varietà dei tipi di dati stoccati ed elaborati nei sistemi di big data e la velocità alla quale vengono generati, raccolti ed elaborati i dati. Anche i valori di veridicità, e di variabilità sono stati aggiunti per arricchire questa descrizione dei big data.
Il volume corrisponde alla quantità di dati che vengono generati e raccolti in ogni momento nel nostro mondo altamente digitalizzato, misurato in byte (terabyte, exabyte, zettabyte). Come è facile capire, molte difficoltà sono legate all'enorme volume dei dati in ambito di stoccaggio, distribuzione ed elaborazione. Queste difficoltà significano, scalabilità dei costi e prestazione. Il volume è anche determinato dall'aumento delle fonti di dati (più persone online) e dall'aumento della risoluzione (dei sensori) e delle infrastrutture scalabili.
Ogni giorno si creano 2,5 quintillioni di byte di dati. Ciò corrisponde a 10 milioni di dischi Blu-ray ogni giorno. 95 milioni di foto e video vengono condivisi ogni giorno su Instagram, 306,4 miliardi di email vengono spedite e 5 milioni di Tweet vengono postati. Ci sono 4,57 miliardi di utenti attivi su internet nel mondo. Tutti i nostri dispositivi generano, raccolgono ed immagazzinano dati.
La velocità si riferisce alla velocità alla quale i dati vengono generati senza posa, diffusi in tempo reale o quasi ed elaborati utilizzando tecnologie locali o basate sul cloud.
Un'ora di video viene caricata ogni secondo su YouTube.
La varietà è la diversità dei dati. Dati vengono resi disponibili in diversi formati come ad esempio in formato testo, immagine, come tweet o come dati geospaziali. I dati provengono inoltre da diverse fonti come ad esempio dalle macchine, dalle persone, dai processi organizzativi (sia interni che esterni). Gli elementi chiave sono le tecnologie cellulari, i social media, le tecnologie indossabili, le geotecnologie, i video e molto, molto altro ancora. I suoi attributi includono il livello di struttura e di complessità.
La veridicità fa riferimento alla conformità ai fatti e al livello di accuratezza. La veridicità ha a che fare anche con la qualità e l'origine dei dati. I suoi attributi includono la coerenza, la completezza, l'integrità e l'ambiguità. Gli elementi determinanti sono i costi e l'esigenza della tracciabilità. In relazione all'alto volume, alla velocità e alla varietà dei dati creati, è necessario porsi la domanda: quest'informazione è vera o falsa?
Esistono anche altre V emergenti ma se ne può menzionare qui una sola, il valore. Esso fa riferimento alla nostra capacità e alla nostra esigenza di trasformare i dati in valore. Valore non significa solo profitto. Può aver a che fare con la sicurezza (come nel caso di informazioni sismiche), con vantaggi per la salute (indossabili che possono identificare i segni di un attacco di cuore) o sociali, come ad esempio il livello di soddisfazione professionale o personale. I big data hanno un ampio valore intrinseco che può assumere varie forme.
Le V non solo caratterizzano i big data ma incarnano anche le difficoltà legate ad essi. enormi quantità di dati, disponibili in vari formati, ampiamente non strutturati, di qualità variabile, che necessitano un'elaborazione tempestiva per permettere di prendere in tempo le giuste decisioni.
Perché e come vengono analizzati i big data?
Si considera che l'80% dei dati siano non strutturati. Come si ottengono informazioni utili in modo affidabile ed accurato? I dati devono venir filtrati, categorizzati, analizzati e visualizzati.
L'analisi dei big data è quel processo tecnologico che esamina i big data (ad alto volume, ad alta velocità e/o ad alta varietà) per scoprire informazioni, pattern nascosti, correlazioni, trend di mercato e/o preferenze dei clienti, le quali aiutano le organizzazioni, i governi o le istituzioni ad esaminare i dati ed ottenere informazioni utili per prendere le giuste decisioni in modo più intelligente e più veloce.
Ciò fa sorgere tre importanti domande: cosa, perché e come. Abbiamo già trattato il cosa, quindi rimangono da passare in rassegna il perché ed il come.
Il perché ed il come dei big data
I big data seguono il principio per cui “più ne sappiamo di una cosa, più affidabile saranno le informazioni che ne traiamo e le previsioni che formuliamo per il suo futuro”.
Il ciclo tipico di gestione dei dati include le fasi di inserimento, stoccaggio, elaborazione, analisi, visualizzazione, condivisione e applicazione. Il cloud ed i big data vanno di pari passo, nella misura in cui l'analisi dei dati ha luogo nei servizi di cloud pubblici. Aziende come Amazon, Microsoft e Google offrono servizi di cloud che permettono una fornitura veloce di una immensa capacità computazionale, di modo che le aziende possano avere accesso alle più avanzate operazioni di computo a richiesta, senza dover possedere l'infrastruttura necessaria a questo scopo, e così gestire l'intero ciclo gestionale dei dati sul cloud. Nella sezione precedente si è parlato di SaaS, IaaS e PaaS. Il cloud computing permette a chi effettua ricerche in ambito di big data di accedere a qualsiasi cosa come ad un servizio (Xaas).
Elaborazione preliminare
Prima dell'elaborazione i dati possono contenere errori, aver valori di bassa qualità (valori assenti, anomalie, elementi di disturbo, valori incoerenti) e richiedere un'elaborazione preliminare (pulizia dei dati, fusione, trasformazione e riduzione) per rimuovere gli elementi di disturbo, correggere i dati o ridurre le loro dimensioni. Ad esempio per le analisi dei comportamenti di utilizzo dell'acqua l'elaborazione preliminare è necessaria affinché i dati forniti dai misuratori d'acqua smart permettano di estrapolare pattern di consumo utili, tenendo conto che i sensori IoT non sempre registrano i dati correttamente.
Identificare pattern o informazioni utili
Il processo automatizzato alla base dei big data comporta la costruzione di modelli basati sulla raccolta dei dati e sullo svolgimento di simulazioni, modificando i valori dei data point per osservarne l'impatto sui risultati. Le tecnologie di analisi più avanzate che abbiamo oggi a disposizione possono svolgere milioni di simulazioni, aggiustando le variabili alla ricerca di pattern identificabili o informazioni utili (come una correlazione tra le variabili) che possano fornire un vantaggio competitivo nella risoluzione di un problema. L'analisi comportamentale si concentra sulle azioni delle persone e l'analisi predittiva cerca pattern che permettano di anticipare i trend.
A mo' di esempio, si prenda in considerazione la business intelligence (BI). BI è il processo di analisi dei dati con l'obiettivo di ottenere informazioni spendibili che aiutino i vertici di un azienda, i manager ed i lavoratori a prendere decisioni aziendali migliori. La business intelligence si concentra sulle operazioni e le prestazioni business. I dati necessari per la BI sono diversi e più elaborati. I sistemi di big data hanno dati grezzi che richiedono di essere filtrati e selezionati prima che possano essere caricati ed analizzati a scopo di BI. Gli strumenti impiegati sono diversi, poiché gli obiettivi ed i dati sono diversi.
Estrapolazione dei dati
Il processo di scoperta dei pattern a partire da grandi quantità di dati per mezzo dell'analisi statistica viene chiamato estrapolazione dei dati o data mining. L'analisi statistica è un comune metodo matematico di estrazione e scoperta dell'informazione. I metodi statistici sono formule matematiche, modelli e tecniche impiegati per trovare pattern e regole a partire da dati grezzi. Tra i metodi più comuni si contano l'analisi della regressione, l'analisi spazio-temporale, le regole di associazione, la classificazione, il clustering o analisi dei gruppi ed il deep learning.
Un esempio di uso pratico dei big data è visibile nei dati dei telefoni cellulari. I dati di utilizzo forniti dai sensori del telefono possono esser utilizzati per stipulare un'assicurazione basata sull'utilizzo. Sparkbit offre assicurazioni a misura di conducente che si basano sul comportamento di ciascuno. Il loro sistema impiega informazioni fornite dagli smartphone per valutare l'efficienza ed il comportamento alla guida. Nel marzo del 2018 il loro sistema aveva già accumulato 330 milioni di chilometri di strada percorsi dagli utenti. L'azienda conta 30.000 nuovi utenti attivi ogni mese, ognuno che registra in media 70 nuovi percorsi. Una sequenza di punti generati dal GPS (coordinate geografiche, accuratezza stimata della posizione, velocità del veicolo o direzione nella quale il veicolo si muove) viene creata per ogni corsa. Il sistema raccoglie i dati, li elabora ed analizza il comportamento del conducente (come ad esempio una guida pericolosa) e poi emette un punteggio per il percorso e per il conducente.
Per rendere i dati disponibili comprensibili, vengono utilizzati strumenti d'analisi d'avanguardia, i quali comprendono solitamente strumenti di intelligenza artificiale e di machine learning. Grazie al machine learning, i computer possono imparare ad identificare cosa diversi contenuti o combinazioni di contenuti rappresentano, riconoscendo pattern molto più velocemente ed in modo più efficiente rispetto agli umani.