DynamoDB - MapReduce

Elastic MapReduce (EMR) di Amazon ti consente di elaborare in modo rapido ed efficiente i big data. EMR esegue Apache Hadoop su istanze EC2, ma semplifica il processo. Si utilizza Apache Hive per eseguire query sulla mappa e ridurre i flussi di lavoro tramite HiveQL , un linguaggio di query simile a SQL. Apache Hive serve come un modo per ottimizzare le query e le tue applicazioni.

È possibile utilizzare la scheda EMR della console di gestione, la CLI EMR, un'API o un SDK per avviare un flusso di lavoro. Hai anche la possibilità di eseguire Hive in modo interattivo o utilizzare uno script.

Le operazioni di lettura / scrittura EMR influiscono sul consumo di throughput, tuttavia, nelle richieste di grandi dimensioni, esegue nuovi tentativi con la protezione di un algoritmo di backoff. Inoltre, l'esecuzione di EMR contemporaneamente ad altre operazioni e attività potrebbe causare una limitazione.

L'integrazione DynamoDB / EMR non supporta gli attributi di set binari e binari.

Prerequisiti di integrazione DynamoDB / EMR

Rivedere questo elenco di controllo degli elementi necessari prima di utilizzare EMR -

  • Un account AWS
  • Una tabella popolata con lo stesso account utilizzato nelle operazioni EMR
  • Una versione Hive personalizzata con connettività DynamoDB
  • Supporto per la connettività DynamoDB
  • Un secchio S3 (opzionale)
  • Un client SSH (opzionale)
  • Una coppia di chiavi EC2 (opzionale)

Configurazione dell'alveare

Prima di utilizzare EMR, crea una coppia di chiavi per eseguire Hive in modalità interattiva. La coppia di chiavi consente la connessione alle istanze EC2 e ai nodi master dei flussi di lavoro.

È possibile eseguire questa operazione seguendo i passaggi successivi:

  • Accedi alla console di gestione e apri la console EC2 situata in https://console.aws.amazon.com/ec2/

  • Seleziona una regione nella parte superiore destra della console. Assicurati che la regione corrisponda alla regione DynamoDB.

  • Nel riquadro di navigazione selezionare Key Pairs.

  • Selezionare Create Key Pair.

  • Nel Key Pair Name campo, immettere un nome e selezionare Create.

  • Scarica il file della chiave privata risultante che utilizza il seguente formato: nomefile.pem.

Note - Non puoi connetterti alle istanze EC2 senza la coppia di chiavi.

Hive Cluster

Crea un cluster abilitato per hive per eseguire Hive. Crea l'ambiente di applicazioni e infrastruttura richiesto per una connessione da Hive a DynamoDB.

È possibile eseguire questa attività utilizzando i seguenti passaggi:

  • Accedi alla console EMR.

  • Selezionare Create Cluster.

  • Nella schermata di creazione, impostare la configurazione del cluster con un nome descrittivo per il cluster, selezionare Yes per la protezione dalla cessazione e il controllo Enabled per la registrazione, una destinazione S3 per log folder S3 location, e Enabled per il debug.

  • Nella schermata Configurazione software, assicurarsi che i campi siano mantenuti Amazon per la distribuzione Hadoop, l'ultima versione per la versione AMI, una versione Hive predefinita per le applicazioni da installare-Hive e una versione Pig predefinita per le applicazioni da installare-Pig.

  • Nella schermata Configurazione hardware, assicurarsi che i campi siano mantenuti Launch into EC2-Classic per la rete, No Preference per la zona di disponibilità EC2, l'impostazione predefinita per il tipo di istanza Amazon EC2 master, nessun controllo per istanze Spot di richiesta, l'impostazione predefinita per il tipo di istanza Core-Amazon EC2, 2 per Count, nessun controllo per Request Spot Instances, il valore predefinito per Task-Amazon EC2 Instance Type, 0 per Count e nessun controllo per Request Spot Instances.

Assicurati di impostare un limite che offra una capacità sufficiente per evitare errori del cluster.

  • Nella schermata Sicurezza e accesso, assicurati che i campi contengano la tua coppia di chiavi nella coppia di chiavi EC2, No other IAM users nell'accesso utente IAM e Proceed without roles nel ruolo IAM.

  • Rivedere la schermata Azioni Bootstrap, ma non modificarla.

  • Rivedi le impostazioni e seleziona Create Cluster Al termine.

UN Summary il riquadro viene visualizzato all'inizio del cluster.

Attiva la sessione SSH

È necessaria una sessione SSH attiva per connettersi al nodo master ed eseguire le operazioni CLI. Individua il nodo master selezionando il cluster nella console EMR. Elenca il nodo master comeMaster Public DNS Name.

Installa PuTTY se non ce l'hai. Quindi avvia PuTTYgen e selezionaLoad. Scegli il tuo file PEM e aprilo. PuTTYgen ti informerà dell'avvenuta importazione. SelezionareSave private key per salvare nel formato di chiave privata PuTTY (PPK) e scegliere Yesper salvare senza passphrase. Quindi inserisci un nome per il tasto PuTTY, premiSavee chiudere PuTTYgen.

Usa PuTTY per stabilire una connessione con il nodo master avviando prima PuTTY. ScegliereSessiondall'elenco delle categorie. Immettere hadoop @ DNS nel campo Nome host. EspandereConnection > SSH nell'elenco Categoria e scegli Auth. Nella schermata delle opzioni di controllo, selezionareBrowseper il file della chiave privata per l'autenticazione. Quindi seleziona il file della tua chiave privata e aprilo. SelezionareYes per il pop-up di avviso di sicurezza.

Quando sei connesso al nodo master, viene visualizzato un prompt dei comandi di Hadoop, il che significa che puoi iniziare una sessione Hive interattiva.

Tavolo Hive

Hive funge da strumento di data warehouse che consente di eseguire query su cluster EMR utilizzando HiveQL . Le configurazioni precedenti ti danno un prompt di lavoro. Esegui i comandi di Hive in modo interattivo semplicemente immettendo "hive" e quindi i comandi che desideri. Consulta il nostro tutorial su Hive per ulteriori informazioni su Hive .