Talend - Lavorare con Pig

In questo capitolo impariamo come lavorare con un lavoro suino in Talend.

Creazione di un lavoro Talend Pig

In questa sezione, impariamo come eseguire un lavoro Pig su Talend. Qui, elaboreremo i dati del NYSE per scoprire il volume medio delle scorte di IBM.

Per questo, fai clic con il pulsante destro del mouse su Job Design e crea un nuovo lavoro: pigjob. Menziona i dettagli del lavoro e fai clic su Fine.

Aggiunta di componenti a Pig Job

Per aggiungere componenti al lavoro Pig, trascina e rilascia quattro componenti Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, dal pallet alla finestra del designer.

Quindi, fai clic con il pulsante destro del mouse su tPigLoad e crea la riga Pig Combine su tPigFilterRow. Quindi, fai clic con il pulsante destro del mouse su tPigFilterRow e crea la linea Pig Combine su tPigAggregate. Fare clic con il tasto destro su tPigAggregate e creare la linea di combinazione Pig su tPigStoreResult.

Configurazione di componenti e trasformazioni

In tPigLoad, menziona la distribuzione come cloudera e la versione di cloudera. Notare che l'URI Namenode dovrebbe essere "hdfs: //quickstart.cloudera: 8020" e Resource Manager dovrebbe essere "quickstart.cloudera: 8020". Inoltre, il nome utente dovrebbe essere "cloudera".

Nell'URI del file di input, fornire il percorso del file di input NYSE al lavoro maiale. Nota che questo file di input dovrebbe essere presente su HDFS.

Fai clic su modifica schema, aggiungi le colonne e il relativo tipo come mostrato di seguito.

In tPigFilterRow, seleziona l'opzione "Usa filtro avanzato" e inserisci "stock_symbol = = 'IBM'" nell'opzione Filtro.

In tAggregateRow, fai clic su modifica schema e aggiungi la colonna avg_stock_volume nell'output come mostrato di seguito.

Ora, metti la colonna stock_exchange nell'opzione Group by. Aggiungi la colonna avg_stock_volume nel campo Operazioni con la funzione di conteggio e stock_exchange come colonna di input.

In tPigStoreResult, fornire il percorso di output nell'URI della cartella dei risultati in cui si desidera memorizzare il risultato del lavoro Pig. Seleziona la funzione di archivio come PigStorage e il separatore di campo (non obbligatorio) come "\ t".

Esecuzione del lavoro di maiale

Ora fai clic su Esegui per eseguire il tuo lavoro Pig. (Ignora gli avvertimenti)

Al termine del lavoro, vai a controllare l'output nel percorso HDFS che hai menzionato per memorizzare il risultato del lavoro maiale. Il volume medio delle scorte di IBM è 500.