Amazon Web Services - Pipeline di dati

AWS Data Pipeline è un servizio web, progettato per rendere più facile per gli utenti integrare i dati distribuiti su più servizi AWS e analizzarli da un'unica posizione.

Utilizzando AWS Data Pipeline, è possibile accedere ai dati dall'origine, elaborarli, quindi i risultati possono essere trasferiti in modo efficiente ai rispettivi servizi AWS.

Come impostare la pipeline di dati?

Di seguito sono riportati i passaggi per impostare la pipeline di dati:

Step 1 - Crea la pipeline utilizzando i seguenti passaggi.

  • Accedi all'account AWS.

  • Utilizza questo collegamento per aprire la console di AWS Data Pipeline - https://console.aws.amazon.com/datapipeline/

  • Seleziona la regione nella barra di navigazione.

  • Fare clic sul pulsante Crea nuova pipeline.

  • Compila i dettagli richiesti nei rispettivi campi.

    • Nel campo Origine, scegli Crea utilizzando un modello e quindi seleziona questo modello - Introduzione all'uso di ShellCommandActivity.

    • La sezione Parametri si apre solo quando il modello è selezionato. Lascia la cartella di input S3 e il comando Shell da eseguire con i valori predefiniti. Fare clic sull'icona della cartella accanto alla cartella di output S3 e selezionare i bucket.

    • In Schedule, lascia i valori come predefiniti.

    • In Configurazione pipeline, lasciare la registrazione abilitata. Fare clic sull'icona della cartella sotto la posizione S3 per i log e selezionare i bucket.

    • In Sicurezza / Accesso, lascia i valori dei ruoli IAM come predefiniti.

    • Fare clic sul pulsante Attiva.

Come eliminare una pipeline?

L'eliminazione della pipeline eliminerà anche tutti gli oggetti associati.

Step 1 - Seleziona la pipeline dall'elenco delle pipeline.

Step 2 - Fare clic sul pulsante Azioni e quindi scegliere Elimina.

Step 3- Si apre una finestra di richiesta di conferma. Fare clic su Elimina.

Caratteristiche di AWS Data Pipeline

Simple and cost-efficient- Le sue funzionalità di trascinamento della selezione facilitano la creazione di una pipeline su console. Il suo creatore di pipeline visivo fornisce una libreria di modelli di pipeline. Questi modelli semplificano la creazione di pipeline per attività come l'elaborazione dei file di registro, l'archiviazione dei dati su Amazon S3 e così via.

Reliable- La sua infrastruttura è progettata per attività di esecuzione a tolleranza di errore. Se si verificano errori nella logica dell'attività o nelle origini dati, AWS Data Pipeline ritenta automaticamente l'attività. Se l'errore persiste, invierà una notifica di errore. Possiamo anche configurare questi avvisi di notifica per situazioni come esecuzioni riuscite, errori, ritardi nelle attività, ecc.

Flexible - AWS Data Pipeline fornisce varie funzionalità come la pianificazione, il monitoraggio, la gestione degli errori, ecc. Può essere configurato per eseguire azioni come eseguire lavori Amazon EMR, eseguire query SQL direttamente sui database, eseguire applicazioni personalizzate in esecuzione su Amazon EC2, ecc.