Amazon Web Services - Elastic MapReduce

Amazon Elastic MapReduce (EMR) è un servizio Web che fornisce un framework gestito per eseguire framework di elaborazione dati come Apache Hadoop, Apache Spark e Presto in modo facile, conveniente e sicuro.

Viene utilizzato per l'analisi dei dati, l'indicizzazione web, il data warehousing, l'analisi finanziaria, la simulazione scientifica, ecc.

Come configurare Amazon EMR?

Segui questi passaggi per configurare Amazon EMR:

Step 1 - Accedi all'account AWS e seleziona Amazon EMR sulla console di gestione.

Step 2- Crea un bucket Amazon S3 per i log del cluster e i dati di output. (La procedura è spiegata in dettaglio nella sezione Amazon S3)

Step 3 - Avvia il cluster Amazon EMR.

Di seguito sono riportati i passaggi per creare un cluster e avviarlo in EMR.

  • Lascia le opzioni della sezione Tag come predefinite e procedi.

  • Nella sezione Configurazione software, livella le opzioni come predefinito.

  • Nella sezione Configurazione del file system, lasciare le opzioni per EMRFS impostate per impostazione predefinita. EMRFS è un'implementazione di HDFS, consente ai cluster Amazon EMR di archiviare i dati su Amazon S3.

  • Nella sezione Configurazione hardware, seleziona m3.xlarge nel campo del tipo di istanza EC2 e lascia le altre impostazioni come predefinite. Fare clic sul pulsante Avanti.

  • Nella sezione Sicurezza e accesso, per la coppia di chiavi EC2, seleziona la coppia dall'elenco nel campo Coppia di chiavi EC2 e lascia le altre impostazioni come predefinite.

  • Nella sezione Azioni Bootstrap, lasciare i campi impostati per impostazione predefinita e fare clic sul pulsante Aggiungi. Le azioni bootstrap sono script che vengono eseguiti durante l'installazione prima dell'avvio di Hadoop su ogni nodo del cluster.

  • Nella sezione Passi, lasciare le impostazioni come predefinite e procedere.

  • Fare clic sul pulsante Crea cluster e si apre la pagina Dettagli cluster. È qui che dovremmo eseguire lo script Hive come passaggio del cluster e utilizzare l'interfaccia web di Hue per interrogare i dati.

Step 4 - Esegui lo script Hive utilizzando i seguenti passaggi.

  • Apri la console Amazon EMR e seleziona il cluster desiderato.

  • Passa alla sezione Passaggi ed espanderla. Quindi fare clic sul pulsante Aggiungi passaggio.

  • Viene visualizzata la finestra di dialogo Aggiungi passaggio. Compila i campi obbligatori, quindi fai clic sul pulsante Aggiungi.

  • Per visualizzare l'output dello script Hive, utilizzare i seguenti passaggi:

    • Apri la console Amazon S3 e seleziona il bucket S3 utilizzato per i dati di output.

    • Seleziona la cartella di output.

    • La query scrive i risultati in una cartella separata. Selezionareos_requests.

    • L'output viene archiviato in un file di testo. Questo file può essere scaricato.

Vantaggi di Amazon EMR

Di seguito sono riportati i vantaggi di Amazon EMR:

  • Easy to use - Amazon EMR è facile da usare, ovvero è facile impostare cluster, configurazione Hadoop, provisioning dei nodi, ecc.

  • Reliable - È affidabile nel senso che ritenta le attività non riuscite e sostituisce automaticamente le istanze con prestazioni scadenti.

  • Elastic- Amazon EMR consente di calcolare grandi quantità di istanze per elaborare i dati su qualsiasi scala. Aumenta o diminuisce facilmente il numero di istanze.

  • Secure - Configura automaticamente le impostazioni del firewall di Amazon EC2, controlla l'accesso alla rete alle istanze, avvia i cluster in un Amazon VPC, ecc.

  • Flexible- Consente il controllo completo sui cluster e l'accesso root a ogni istanza. Consente inoltre l'installazione di applicazioni aggiuntive e personalizza il cluster secondo i requisiti.

  • Cost-efficient- Il suo prezzo è facile da stimare. Si addebita ogni ora per ogni istanza utilizzata.