Hadoop - Panoramica sui Big Data

"Il 90% dei dati mondiali è stato generato negli ultimi anni."

A causa dell'avvento di nuove tecnologie, dispositivi e mezzi di comunicazione come i siti di social networking, la quantità di dati prodotta dall'umanità cresce rapidamente ogni anno. La quantità di dati da noi prodotti dall'inizio del tempo fino al 2003 è stata di 5 miliardi di gigabyte. Se accumuli i dati sotto forma di dischi, potresti riempire un intero campo di calcio. Lo stesso importo è stato creato ogni due giorni in2011e ogni dieci minuti in 2013. Questo tasso sta ancora crescendo enormemente. Sebbene tutte queste informazioni prodotte siano significative e possano essere utili una volta elaborate, vengono trascurate.

Cosa sono i Big Data?

Big dataè una raccolta di grandi set di dati che non possono essere elaborati utilizzando le tecniche di calcolo tradizionali. Non è una singola tecnica o uno strumento, piuttosto è diventato un argomento completo, che coinvolge vari strumenti, tecniche e strutture.

Cosa c'è sotto i big data?

I big data coinvolgono i dati prodotti da diversi dispositivi e applicazioni. Di seguito sono riportati alcuni dei campi che rientrano nell'ombrello dei Big Data.

  • Black Box Data - È un componente di elicotteri, aeroplani e jet, ecc. Cattura le voci dell'equipaggio di volo, le registrazioni di microfoni e auricolari e le informazioni sulle prestazioni del velivolo.

  • Social Media Data - I social media come Facebook e Twitter contengono informazioni e visualizzazioni pubblicate da milioni di persone in tutto il mondo.

  • Stock Exchange Data - I dati di borsa contengono informazioni sulle decisioni di "acquisto" e "vendita" prese dai clienti su azioni di diverse società.

  • Power Grid Data - I dati della rete elettrica contengono le informazioni consumate da un particolare nodo rispetto a una stazione base.

  • Transport Data - I dati di trasporto includono modello, capacità, distanza e disponibilità di un veicolo.

  • Search Engine Data - I motori di ricerca recuperano molti dati da diversi database.

Pertanto, i Big Data includono un volume enorme, un'elevata velocità e una varietà estendibile di dati. I dati in esso contenuti saranno di tre tipi.

  • Structured data - Dati relazionali.

  • Semi Structured data - Dati XML.

  • Unstructured data - Word, PDF, testo, registri multimediali.

Vantaggi dei Big Data

  • Utilizzando le informazioni conservate nel social network come Facebook, le agenzie di marketing stanno imparando la risposta per le loro campagne, promozioni e altri mezzi pubblicitari.

  • Utilizzando le informazioni nei social media come le preferenze e la percezione del prodotto dei propri consumatori, le aziende produttrici e le organizzazioni di vendita al dettaglio stanno pianificando la loro produzione.

  • Utilizzando i dati relativi alla precedente storia medica dei pazienti, gli ospedali forniscono un servizio migliore e rapido.

Big Data Technologies

Le tecnologie dei big data sono importanti per fornire analisi più accurate, il che può portare a un processo decisionale più concreto con conseguente maggiore efficienza operativa, riduzione dei costi e riduzione dei rischi per l'azienda.

Per sfruttare la potenza dei big data, è necessaria un'infrastruttura in grado di gestire ed elaborare enormi volumi di dati strutturati e non strutturati in tempo reale e in grado di proteggere la privacy e la sicurezza dei dati.

Esistono varie tecnologie sul mercato di diversi fornitori tra cui Amazon, IBM, Microsoft, ecc., Per gestire i big data. Analizzando le tecnologie che gestiscono i big data, esaminiamo le seguenti due classi di tecnologia:

Big Data operativi

Ciò include sistemi come MongoDB che forniscono funzionalità operative per carichi di lavoro interattivi in ​​tempo reale in cui i dati vengono principalmente acquisiti e archiviati.

I sistemi NoSQL Big Data sono progettati per sfruttare le nuove architetture di cloud computing emerse negli ultimi dieci anni per consentire l'esecuzione di calcoli di massa in modo economico ed efficiente. Ciò rende i carichi di lavoro operativi dei big data molto più facili da gestire, più economici e più veloci da implementare.

Alcuni sistemi NoSQL possono fornire informazioni su modelli e tendenze sulla base di dati in tempo reale con una codifica minima e senza la necessità di data scientist e infrastrutture aggiuntive.

Big Data analitici

Questi includono sistemi come i sistemi di database Massively Parallel Processing (MPP) e MapReduce che forniscono capacità analitiche per analisi retrospettive e complesse che possono toccare la maggior parte o tutti i dati.

MapReduce fornisce un nuovo metodo di analisi dei dati che è complementare alle capacità fornite da SQL e un sistema basato su MapReduce che può essere scalato da singoli server a migliaia di macchine di fascia alta e bassa.

Queste due classi di tecnologia sono complementari e frequentemente utilizzate insieme.

Sistemi operativi e analitici

Operativo Analitico
Latenza 1 ms - 100 ms 1 min - 100 min
Concorrenza 1000 - 100.000 1 - 10
Pattern di accesso Scrive e legge Legge
Interrogazioni Selettivo Non selettivo
Ambito dei dati Operativo Retrospettiva
Utente finale Cliente Data Scientist
Tecnologia NoSQL MapReduce, database MPP

Sfide dei Big Data

Le principali sfide associate ai big data sono le seguenti:

  • Acquisizione dei dati
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

Per soddisfare le sfide di cui sopra, le organizzazioni normalmente ricorrono all'aiuto dei server aziendali.