Amazon Web Services - Elastic MapReduce
Amazon Elastic MapReduce (EMR) è un servizio Web che fornisce un framework gestito per eseguire framework di elaborazione dati come Apache Hadoop, Apache Spark e Presto in modo facile, conveniente e sicuro.
Viene utilizzato per l'analisi dei dati, l'indicizzazione web, il data warehousing, l'analisi finanziaria, la simulazione scientifica, ecc.
Come configurare Amazon EMR?
Segui questi passaggi per configurare Amazon EMR:
Step 1 - Accedi all'account AWS e seleziona Amazon EMR sulla console di gestione.
Step 2- Crea un bucket Amazon S3 per i log del cluster e i dati di output. (La procedura è spiegata in dettaglio nella sezione Amazon S3)
Step 3 - Avvia il cluster Amazon EMR.
Di seguito sono riportati i passaggi per creare un cluster e avviarlo in EMR.
Utilizza questo collegamento per aprire la console Amazon EMR - https://console.aws.amazon.com/elasticmapreduce/home
Selezionare crea cluster e fornire i dettagli richiesti nella pagina Configurazione cluster.
Lascia le opzioni della sezione Tag come predefinite e procedi.
Nella sezione Configurazione software, livella le opzioni come predefinito.
Nella sezione Configurazione del file system, lasciare le opzioni per EMRFS impostate per impostazione predefinita. EMRFS è un'implementazione di HDFS, consente ai cluster Amazon EMR di archiviare i dati su Amazon S3.
Nella sezione Configurazione hardware, seleziona m3.xlarge nel campo del tipo di istanza EC2 e lascia le altre impostazioni come predefinite. Fare clic sul pulsante Avanti.
Nella sezione Sicurezza e accesso, per la coppia di chiavi EC2, seleziona la coppia dall'elenco nel campo Coppia di chiavi EC2 e lascia le altre impostazioni come predefinite.
Nella sezione Azioni Bootstrap, lasciare i campi impostati per impostazione predefinita e fare clic sul pulsante Aggiungi. Le azioni bootstrap sono script che vengono eseguiti durante l'installazione prima dell'avvio di Hadoop su ogni nodo del cluster.
Nella sezione Passi, lasciare le impostazioni come predefinite e procedere.
Fare clic sul pulsante Crea cluster e si apre la pagina Dettagli cluster. È qui che dovremmo eseguire lo script Hive come passaggio del cluster e utilizzare l'interfaccia web di Hue per interrogare i dati.
Step 4 - Esegui lo script Hive utilizzando i seguenti passaggi.
Apri la console Amazon EMR e seleziona il cluster desiderato.
Passa alla sezione Passaggi ed espanderla. Quindi fare clic sul pulsante Aggiungi passaggio.
Viene visualizzata la finestra di dialogo Aggiungi passaggio. Compila i campi obbligatori, quindi fai clic sul pulsante Aggiungi.
Per visualizzare l'output dello script Hive, utilizzare i seguenti passaggi:
Apri la console Amazon S3 e seleziona il bucket S3 utilizzato per i dati di output.
Seleziona la cartella di output.
La query scrive i risultati in una cartella separata. Selezionareos_requests.
L'output viene archiviato in un file di testo. Questo file può essere scaricato.
Vantaggi di Amazon EMR
Di seguito sono riportati i vantaggi di Amazon EMR:
Easy to use - Amazon EMR è facile da usare, ovvero è facile impostare cluster, configurazione Hadoop, provisioning dei nodi, ecc.
Reliable - È affidabile nel senso che ritenta le attività non riuscite e sostituisce automaticamente le istanze con prestazioni scadenti.
Elastic- Amazon EMR consente di calcolare grandi quantità di istanze per elaborare i dati su qualsiasi scala. Aumenta o diminuisce facilmente il numero di istanze.
Secure - Configura automaticamente le impostazioni del firewall di Amazon EC2, controlla l'accesso alla rete alle istanze, avvia i cluster in un Amazon VPC, ecc.
Flexible- Consente il controllo completo sui cluster e l'accesso root a ogni istanza. Consente inoltre l'installazione di applicazioni aggiuntive e personalizza il cluster secondo i requisiti.
Cost-efficient- Il suo prezzo è facile da stimare. Si addebita ogni ora per ogni istanza utilizzata.