Apache Flume - Introduzione

Cos'è Flume?

Apache Flume è uno strumento / servizio / meccanismo di importazione dei dati per la raccolta di aggregazione e trasporto di grandi quantità di dati in streaming come file di registro, eventi (ecc.) Da varie fonti a un archivio dati centralizzato.

Flume è uno strumento altamente affidabile, distribuito e configurabile. È progettato principalmente per copiare i dati di streaming (dati di registro) da vari server Web a HDFS.

Applicazioni di Flume

Supponiamo che un'applicazione web di e-commerce desideri analizzare il comportamento del cliente da una determinata regione. A tal fine, è necessario spostare i dati di registro disponibili in Hadoop per l'analisi. Qui, Apache Flume viene in nostro soccorso.

Flume viene utilizzato per spostare i dati di registro generati dai server delle applicazioni in HDFS a una velocità maggiore.

Vantaggi di Flume

Ecco i vantaggi dell'utilizzo di Flume:

  • Utilizzando Apache Flume possiamo archiviare i dati in uno qualsiasi degli archivi centralizzati (HBase, HDFS).

  • Quando la velocità dei dati in entrata supera la velocità con cui i dati possono essere scritti nella destinazione, Flume funge da mediatore tra i produttori di dati e gli archivi centralizzati e fornisce un flusso costante di dati tra di loro.

  • Flume fornisce la caratteristica di contextual routing.

  • Le transazioni in Flume sono basate sul canale in cui vengono mantenute due transazioni (un mittente e un destinatario) per ogni messaggio. Garantisce una consegna affidabile dei messaggi.

  • Flume è affidabile, a tolleranza di errore, scalabile, gestibile e personalizzabile.

Caratteristiche di Flume

Alcune delle caratteristiche notevoli di Flume sono le seguenti:

  • Flume acquisisce i dati di registro da più server Web in un archivio centralizzato (HDFS, HBase) in modo efficiente.

  • Utilizzando Flume, possiamo ottenere i dati da più server immediatamente in Hadoop.

  • Insieme ai file di registro, Flume viene utilizzato anche per importare enormi volumi di dati sugli eventi prodotti da siti di social networking come Facebook e Twitter e siti di e-commerce come Amazon e Flipkart.

  • Flume supporta un ampio set di sorgenti e tipi di destinazioni.

  • Flume supporta flussi multi-hop, flussi fan-in fan-out, routing contestuale, ecc.

  • Flume può essere scalato orizzontalmente.