Hadoop - Soluzioni per Big Data

Approccio tradizionale

In questo approccio, un'azienda avrà un computer per archiviare ed elaborare i big data. Ai fini della memorizzazione, i programmatori useranno l'aiuto di loro scelta di fornitori di database come Oracle, IBM, ecc. In questo approccio, l'utente interagisce con l'applicazione, che a sua volta gestisce la parte di archiviazione e analisi dei dati.

Limitazione

Questo approccio funziona bene con quelle applicazioni che elaborano dati meno voluminosi che possono essere ospitati dai server di database standard o fino al limite del processore che elabora i dati. Ma quando si tratta di gestire enormi quantità di dati scalabili, è un compito frenetico elaborare tali dati attraverso un unico collo di bottiglia del database.

La soluzione di Google

Google ha risolto questo problema utilizzando un algoritmo chiamato MapReduce. Questo algoritmo divide l'attività in piccole parti e le assegna a molti computer e raccoglie i risultati da essi che, una volta integrati, formano il set di dati dei risultati.

Hadoop

Utilizzando la soluzione fornita da Google, Doug Cutting e il suo team ha sviluppato un progetto Open Source chiamato HADOOP.

Hadoop esegue le applicazioni utilizzando l'algoritmo MapReduce, in cui i dati vengono elaborati in parallelo con altri. In breve, Hadoop viene utilizzato per sviluppare applicazioni in grado di eseguire analisi statistiche complete su enormi quantità di dati.