Si parla di Big Data quando si ha un dataset talmente grande da richiedere strumenti non convenzionali per estrapolare, gestire e processare informazioni entro un tempo ragionevolmente breve. L’elevato volume di dati che viene raccolto dalle aziende, può diventare un ricchissimo patrimonio informativo, basta sapere come utilizzarlo.

Il volume di dati e l’ampio uso di dati non strutturati non permette l’utilizzo dei tradizionali RDBMS, inoltre i dati che affluiscono a ritmi sostenuti necessitano di essere processati in tempo reale, e tutto ciò non permette di usare gli strumenti di business intelligence “tradizionali” che utilizzano dataset limitati con dati strutturati e modelli semplici.

I Big Data al contrario utilizzano dataset eterogenei (dati non strutturati e non correlati tra loro, dati raw) e impiegano per l’analisi modelli predittivi anche complessi. L’obbiettivo è quello di rendere le organizzazioni in grado di acquisire qualsiasi tipo di dati provenienti da ogni tipo di canale per utilizzarne i più rilevanti e analizzarli al fine di ridurre i costi, ottimizzare processi e metodologie, sviluppare nuovi prodotti, ottimizzare le offerte, prevenire i guasti o le frodi informatiche, etc.. etc.

I Big Data Analytics rappresentano oggi la chiave per il successo del business in qualsiasi settore di impresa ed anche nella Pubblica Amministrazione, ed inoltre oggi gli strumenti di analytics sono diventati sempre più facili e intuitivi sia nell’utilizzo che nella consultazione della reportistica.

5 R’s of Big Data

Definire ciò che è rilevante ed utile per i risultati di business
Accelerare il time-to-value dalla creazione all’utilizzo dei dati
Essere in grado di estrarre l’intuizione di business necessaria per influenzare i risultati.
La qualità dei dati è fondamentale per l’affidabilità e l’efficacia dei risultati.
La gestione e l’analisi efficace dei dati deve consentire decisioni precise, mirate, e puntuali al vostro business, in modo da massimizzare il ROI (Return On Investment) del progetto.

Data Mining

Il data mining è l’insieme di tecniche e metodologie che hanno per oggetto l’estrazione di una conoscenza da banche dati di grandi dimensioni attraverso l’utilizzo scientifico di algoritmi che individuano le associazioni “nascoste” tra le informazioni e le rendono visibili.

Attività tipiche del Data Mining

  • Classificazione [Predittiva]
  • Clustering [Descrittiva]
  • Ricerca di regole associative [Descrittiva]
  • Ricerca di pattern sequenziali [Descrittiva]
  • Regressione [Predittiva]
  • Descrittiva: descrivere insiemi di dati in maniera concisa e semplificata, presentandone interessanti proprietà generali => Scoperta di pattern non conosciuti a priori.
  • Predittiva: costruire modelli (Pattern) di dati al fine di predire il comportamento di nuovi insiemi di dati => Predizione di trend futuri e comportamenti.

Un’esempio di data mining applicato al Direct Marketing

Obiettivo: ridurre il costo della pubblicità via posta definendo l’insieme dei clienti che, con maggiore probabilità, compreranno un nuovo prodotto di telefonia.

Approccio:

  • Utilizza i dati raccolti per il lancio di prodotti similari.
  • Conosciamo quali clienti in passato hanno deciso di comprare e quali no.
  • Raccogli tutte le informazioni possibili legate ai singoli compratori: demografiche, stile di vita, precedenti rapporti con l’azienda, attività lavorativa svolta, reddito, età, sesso, ecc.
  • Utilizza queste informazioni come attributi di input per addestrare un modello di classificazione.

L’estrazione dei dati vera e propria giunge quindi al termine di un processo che comporta numerose fasi: si individuano le fonti di dati; si crea un unico set di dati aggregati; si effettua una pre-elaborazione (data cleaning, analisi esplorative, selezione, ecc.); si estraggono i dati con l’algoritmo scelto; si interpretano e valutano i pattern; l’ultimo passaggio va dai pattern alla nuova conoscenza così acquisita.

Know-how in ambito Big Data

  • Design, deploy ed amministrazione Hadoop cluster.
  • Gestione sicurezza (Kerberos).
  • Ingestion dei dati con Flume, Spark.
  • Design schema e creazione – fruizione via Hive ed Impala.
  • Design database-schema HBase.
  • Implementazione Pig script.
  • Implementazione Apache Spark:
  • Scala, Java e Python
  • Full text searching (Solr)

La Piattaforma Open source Cloudera permette l’analisi di dati e metadati e supporta l’apprendimento automatico {algoritmi di Machine Learning}, che utilizza sistemi cognitivi al fine di aiutare il management aziendale a prendere decisioni informate e basate su dati concreti. Utilizzando la tecnologia cluster di Hadoop si è in grado di estrarre, memorizzare e analizzare da silos di dati non strutturati, informazioni per la generazione di nuovi e più completi report e grafici per l’analisi visuale dei dati e gli approfondimenti. Il file system distribuito di Hadoop (HDFS), permette di eliminare i bootleneck nel trasferimento dei dati e il tempo speso ad aggiungere nuovi server al fine di aumentare i data cluster tradizionali, migliorando l’organizzazione, la velocità e la scalabilità nella gestione dei big data.

Cloudera Impala è il motore per interrogazioni SQL open source ad elaborazione parallela di massa (MPP) per dati archiviati in cui viene eseguito Apache Hadoop. SOLR  [full-text search] consente anche ai non esperti di effetuare le ricerche in un modo più familiare, semplicemente digitando in un box le parole chiavi della ricerca che si intende effettuare.

Il Framework Spark consente di eseguire gran parte dell’elaborazione all’interno della RAM, che è ovviamente più veloce dei dispositivi di memorizzazione magnetici tradizionali, restituendo un feedback in tempo reale all’operatore. Si ritiene che Spark sia ormai circa cento volte più veloce rispetto a MapReduce nell’utilizzo dello storage distribuito di Hadoop. Spark può essere usato nei linguaggi di programmazione Java, Scala e Python, ed è prevista un’integrazione con il linguaggio R. Spark può lavorare sia in un singolo nodo che in cluster.

Cloudera include strumenti di sicurezza [crittografia e gestione granulare degli accessi (Kerberos)] e di verifica di conformità, e rappresenta uno strumento integrato e completo in grado di supportare carichi applicativi importanti senza movimentazione di dati che risiedono in un’infrastruttura comune.

L’Appliance Oracle Big Data

La piattaforma studiata da Oracle combina la migliore tecnologia hardware disponibile sul mercato, con il software Cloudera (customizzato da Oracle) che affianca Oracle DataBase SQL per l’accesso al data-store NoSQL, combinando tecnologie relazionali e non relazionali in una singola architettura che sfrutta SQL, semplificando così l’accesso all’intero patrimonio di dati.  La soluzione di Oracle comprende tutto il software Cloudera Enterprise Technology, tra cui Cloudera CDH, Cloudera Manager, e Cloudera RTQ (Impala) al fine di rispondere ai più diversi requisiti di elaborazione.
Oracle Big Data Appliance  utilizzata in abbinamento con Oracle Exadata Database Machine e Oracle Exalytics , costituisce la sola architettura di settore realmente completa per l’archiviazione, la gestione e l’analisi di qualsiasi forma di dati strutturati e non strutturati, in grado di ridurre al minimo la movimentazione dei dati stessi. Maggiori informazioni: Oracle e i Big Data.