Talend - Big Data

Lo slogan per Open Studio con Big Data è "Semplifica ETL ed ELT con lo strumento ETL open source gratuito leader per i big data". In questo capitolo, esaminiamo l'utilizzo di Talend come strumento per l'elaborazione dei dati in un ambiente big data.

introduzione

Talend Open Studio - Big Data è uno strumento gratuito e open source per elaborare i tuoi dati molto facilmente in un ambiente di big data. Hai molti componenti Big Data disponibili in Talend Open Studio, che ti consente di creare ed eseguire lavori Hadoop semplicemente trascinando e rilasciando alcuni componenti Hadoop.

Inoltre, non è necessario scrivere grandi righe di codici MapReduce; Talend Open Studio Big Data ti aiuta a farlo con i componenti presenti in esso. Genera automaticamente il codice MapReduce per te, devi solo trascinare e rilasciare i componenti e configurare pochi parametri.

Ti dà anche la possibilità di connetterti a diverse distribuzioni di Big Data come Cloudera, HortonWorks, MapR, Amazon EMR e persino Apache.

Componenti Talend per Big Data

Di seguito è riportato l'elenco delle categorie con componenti per eseguire un lavoro sull'ambiente Big Data incluso in Big Data:

Di seguito è riportato l'elenco dei connettori e dei componenti Big Data in Talend Open Studio:

  • tHDFSConnection - Utilizzato per la connessione a HDFS (Hadoop Distributed File System).

  • tHDFSInput - Legge i dati dal percorso hdfs dato, li inserisce nello schema talend e poi li passa al componente successivo del lavoro.

  • tHDFSList - Recupera tutti i file e le cartelle nel percorso hdfs specificato.

  • tHDFSPut - Copia il file / cartella dal file system locale (definito dall'utente) a hdfs nel percorso specificato.

  • tHDFSGet - Copia file / cartella da hdfs al file system locale (definito dall'utente) nel percorso specificato.

  • tHDFSDelete - Elimina il file da HDFS

  • tHDFSExist - Controlla se un file è presente su HDFS o meno.

  • tHDFSOutput - Scrive flussi di dati su HDFS.

  • tCassandraConnection - Apre la connessione al server Cassandra.

  • tCassandraRow - Esegue query CQL (Cassandra query language) sul database specificato.

  • tHBaseConnection - Apre la connessione al database HBase.

  • tHBaseInput - legge i dati dal database HBase.

  • tHiveConnection - Apre la connessione al database Hive.

  • tHiveCreateTable - Crea una tabella all'interno di un database hive.

  • tHiveInput - Legge i dati dal database dell'hive.

  • tHiveLoad - Scrive i dati nella tabella hive o in una directory specificata.

  • tHiveRow - esegue query HiveQL sul database specificato.

  • tPigLoad - Carica i dati di input nel flusso di output.

  • tPigMap - Utilizzato per trasformare e instradare i dati in un processo maiale.

  • tPigJoin - Esegue l'operazione di unione di 2 file in base alle chiavi di unione.

  • tPigCoGroup - Raggruppa e aggrega i dati provenienti da più input.

  • tPigSort - Ordina i dati forniti in base a una o più chiavi di ordinamento definite.

  • tPigStoreResult - Memorizza il risultato dell'operazione suino in uno spazio di archiviazione definito.

  • tPigFilterRow - Filtra le colonne specificate per suddividere i dati in base alla condizione data.

  • tPigDistinct - Rimuove le tuple duplicate dalla relazione.

  • tSqoopImport - Trasferisce i dati da database relazionali come MySQL, Oracle DB a HDFS.

  • tSqoopExport - Trasferisce i dati da HDFS a database relazionali come MySQL, Oracle DB