Cosa sono i Big Data e perché ci riguardano da vicino - Semplice come

Precedente

Megatrend demografici: una nuova forma di investimento tutta da scoprire

Successivo

Cos’è la gamification e perché le aziende la usano

Innovazione

Cosa sono i Big Data e perché ci riguardano da vicino

di Paolo Bottazzini - 5 febbraio 2018
Condividi su FacebookTwitta su TwitterCondividi su LinkedIn

Tanti ne parlano, ma forse non a tutti è chiaro cosa sono i Big Data. L’etichetta coinvolge un insieme di attività piuttosto vario, che abbraccia la raccolta dei dati, la loro collocazione negli archivi, le procedure di esame, l’estrazione delle informazioni, la loro rappresentazione.

Le origini della definizione

Secondo Wikipedia, l’invenzione del termine risalirebbe al 1998, ma sarebbe diventato popolare solo intorno al 2012. L’agenzia Gartner (una delle società di consulenza informatica più importanti del mondo) ha elaborato le definizioni più note del fenomeno, ricorrendo all’acronimo delle «tre V»: volume, velocità, varietà.

1. Volume. È la proprietà più autoesplicativa: i dati che vengono raccolti occupano spazio.

2. Velocità. I dati aumentano a vista d’occhio: ogni clic che azioniamo su un computer o su un cellulare, ogni riga che aggiungiamo, ogni foto o video che postiamo, contribuiscono alla loro crescita;

3. Varietà. Le relazioni tra dati di diversi generi permettono di estrarre conoscenze nuove, non contenute in nessuna delle categorie di informazioni inserite nell’archivio. Per esempio, il software Blue CRUSH della polizia di Memphis non raccoglie solo le caratteristiche degli episodi di violenza, ma anche la dislocazione di bancomat, parcheggi, locali con consumo di alcolici, giorni di paga degli operai delle industrie locali. Le predizioni del programma segnalano alle volanti quali luoghi presidiare, e nei sei anni del suo funzionamento hanno ridotto del 36% il numero di furti e di omicidi in città.

Nel 2013 si stimava che il volume di dati disponibili sul pianeta si aggirasse intorno ai 1.200 exabyte, con una spinta al raddoppio ogni tre anni. Un exabyte è un numero enorme, 1 seguito da 18 zeri; se si masterizzasse tutta l’informazione presente oggi sulla Terra su supporto DVD, e si accatastassero i dischi gli uni sugli altri, sorgerebbero dieci colonne alte quanto la distanza che ci separa dalla Luna (e l’undicesima sarebbe a buon punto).

Tutto questo ci insegna che il fattore relativo alla quantità deve essere sempre associato a quello della rapidità di cambiamento. La velocità di amplificazione e di trasformazione dei dati riguarda sia l’espansione degli archivi, in cui vengono depositati i segnali di ciò che viene prodotto e postato in Rete, sia l’attesa di reazione da parte dei sistemi informatici che il pubblico esige ad ogni clic. Google completa le parole nella stringa di ricerca mentre l’utente le sta ancora scrivendo, anticipando la domanda: il software la intuisce dall’esperienza che ha accumulato sulle domande già fatte dagli altri utenti. Il motore processa ogni giorno cinque miliardi di ricerche (quasi 58 mila ogni secondo), equivalenti a circa 24 petabyte di dati: una competenza sulla curiosità degli esseri umani in continua crescita, e una formidabile esibizione di muscoli tecnologici.

Esempi di come i dati possono migliorare la nostra vita

A Los Angeles è stato sviluppato un sistema di gestione della sicurezza, PredPol, una tecnologia che aiuta a prevedere e quindi a prevenire i crimini, utilizzata dalle forze dell’ordine. La precisione del software non si misura solo nei risultati di prevenzione del crimine, ma anche nel suo utilizzo per la scoperta dei responsabili di delitti seriali. Le rapine sono calate del 21%, le morti violente del 33%; ma soprattutto, il calcolo della località e del momento in cui sarà messo a segno il nuovo colpo permette di catturare i colpevoli di reati commessi in passato.

L’analisi dei Big Data interviene anche nel miglioramento della vita domestica. La catena di supermercati americana Tesco, per esempio, ha collezionato i dati relativi all’assistenza prestata sui 70 milioni di frigoriferi venduti nei suoi negozi: il repertorio di informazioni permette sia una migliore organizzazione degli interventi, sia la fornitura di un insieme di indicazioni per i clienti in vista del prolungamento della vita degli elettrodomestici e del taglio dei costi energetici per la loro attività a regime.

Nel 2009, gli ingegneri di Google hanno formulato un algoritmo capace di identificare le aree in cui stanno covando i focolai di un contagio di influenza, con due settimane di anticipo rispetto ai CDP (l’agenzia americana che presidia la salute pubblica). Il software legge la varietà di tracce che gli utenti lasciano ad ogni interazione con il motore, inserendo frasi di interrogazione, scegliendo certe risposte invece di altre, osservando immagini e video. Nessuna proposizione, nessun clic, nessun contenuto audiovisivo, ospita di per sé la dichiarazione esplicita del virus che si sta moltiplicando – o della sua assenza. Il team di ricercatori ha valutato e testato 450 milioni di formule matematiche, che mettono in relazione segnali nelle domande e nella preferenza di un genere di risultati rispetto agli altri; alla fine hanno trovato il modo per analizzare i dati che servivano per capire come si sta diffondendo l’influenza.

Paolo Bottazzini

Paolo Bottazzini

Svolge consulenze nell’analisi strategica dei Big Data e nell’ideazione di progetti di comunicazione digitale. Dal 1999 si occupa professionalmente di user experience, information retrieval e social media. E' l'autore della monografia Googlecrazia. Scrive o ha scritto per Nova de Il Sole24ore e pagina99.

Iscriviti alla newsletter