Talend - Hive
In questo capitolo, cerchiamo di capire come lavorare con Hive job su Talend.
Creazione di un lavoro Talend Hive
Ad esempio, caricheremo i dati NYSE in una tabella hive ed eseguiremo una query hive di base. Fare clic con il tasto destro su Job Design e creare un nuovo lavoro: hivejob. Menziona i dettagli del lavoro e clicca su Fine.
Aggiunta di componenti a Hive Job
Per assegnare componenti a un lavoro Hive, trascina cinque componenti talend: tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput e tLogRow dal pallet alla finestra di progettazione. Quindi, fai clic con il pulsante destro del mouse su tHiveConnection e crea il trigger OnSubjobOk su tHiveCreateTable. Ora, fai clic con il pulsante destro del mouse su tHiveCreateTable e crea il trigger OnSubjobOk su tHiveLoad. Fare clic con il tasto destro su tHiveLoad e creare un trigger di iterazione su tHiveInput. Infine, fai clic con il pulsante destro del mouse su tHiveInput e crea una riga principale su tLogRow.
Configurazione di componenti e trasformazioni
In tHiveConnection, seleziona la distribuzione come cloudera e la sua versione che stai utilizzando. Tieni presente che la modalità di connessione sarà autonoma e il servizio Hive sarà Hive 2. Controlla anche se i seguenti parametri sono impostati di conseguenza:
- Host: "quickstart.cloudera"
- Porta: "10000"
- Database: "predefinito"
- Nome utente: "hive"
Nota che la password verrà compilata automaticamente, non è necessario modificarla. Anche altre proprietà di Hadoop saranno preimpostate e impostate per impostazione predefinita.
In tHiveCreateTable selezionare Usa una connessione esistente e inserire tHiveConnection nell'elenco dei componenti. Assegna il nome della tabella che desideri creare nel database predefinito. Mantieni gli altri parametri come mostrato di seguito.
In tHiveLoad, seleziona "Usa una connessione esistente" e inserisci tHiveConnection nell'elenco dei componenti. Selezionare LOAD in Load action. In File Path, fornisci il percorso HDFS del tuo file di input NYSE. Indicare la tabella in Nome tabella, in cui si desidera caricare l'input. Mantenere gli altri parametri come mostrato di seguito.
In tHiveInput selezionare Usa una connessione esistente e inserire tHiveConnection nell'elenco dei componenti. Fai clic su modifica schema, aggiungi le colonne e il relativo tipo come mostrato nell'istantanea dello schema di seguito. Ora dai il nome della tabella che hai creato in tHiveCreateTable.
Inserisci la tua query nell'opzione di query che desideri eseguire sulla tabella Hive. Qui stiamo stampando tutte le colonne delle prime 10 righe nella tabella hive di prova.
In tLogRow, fai clic su sincronizza colonne e seleziona Modalità tabella per mostrare l'output.
Esecuzione del lavoro dell'alveare
Fare clic su Esegui per iniziare l'esecuzione. Se tutta la connessione ei parametri sono stati impostati correttamente, vedrai l'output della tua query come mostrato di seguito.