HCatalog - Introduzione

Cos'è HCatalog?

HCatalog è uno strumento di gestione dell'archiviazione delle tabelle per Hadoop. Espone i dati tabulari del metastore Hive ad altre applicazioni Hadoop. Consente agli utenti con diversi strumenti di elaborazione dati (Pig, MapReduce) di scrivere facilmente i dati su una griglia. Assicura che gli utenti non debbano preoccuparsi di dove o in quale formato sono archiviati i loro dati.

HCatalog funziona come un componente chiave di Hive e consente agli utenti di memorizzare i propri dati in qualsiasi formato e struttura.

Perché HCatalog?

Abilitare lo strumento giusto per il lavoro giusto

L'ecosistema Hadoop contiene diversi strumenti per l'elaborazione dei dati come Hive, Pig e MapReduce. Sebbene questi strumenti non richiedano metadati, possono comunque trarne vantaggio quando sono presenti. La condivisione di un archivio di metadati consente inoltre agli utenti di tutti gli strumenti di condividere i dati più facilmente. Un flusso di lavoro in cui i dati vengono caricati e normalizzati utilizzando MapReduce o Pig e quindi analizzati tramite Hive è molto comune. Se tutti questi strumenti condividono un metastore, gli utenti di ogni strumento hanno accesso immediato ai dati creati con un altro strumento. Non sono richieste fasi di caricamento o trasferimento.

Acquisisci gli stati di elaborazione per abilitare la condivisione

HCatalog può pubblicare i tuoi risultati di analisi. Quindi l'altro programmatore può accedere alla tua piattaforma di analisi tramite "REST". Gli schemi da te pubblicati sono utili anche ad altri data scientist. Gli altri data scientist utilizzano le tue scoperte come input per una scoperta successiva.

Integra Hadoop con tutto

Hadoop come ambiente di elaborazione e archiviazione offre molte opportunità all'azienda; tuttavia, per favorire l'adozione, deve lavorare con e potenziare gli strumenti esistenti. Hadoop dovrebbe servire come input nella tua piattaforma di analisi o integrarsi con i tuoi archivi di dati operativi e le applicazioni web. L'organizzazione dovrebbe godere del valore di Hadoop senza dover apprendere un set di strumenti completamente nuovo. I servizi REST aprono la piattaforma all'azienda con un'API familiare e un linguaggio simile a SQL. I sistemi di gestione dei dati aziendali utilizzano HCatalog per integrarsi più profondamente con la piattaforma Hadoop.

Architettura HCatalog

La figura seguente mostra l'architettura complessiva di HCatalog.

HCatalog supporta la lettura e la scrittura di file in qualsiasi formato per il quale a SerDe(serializer-deserializer) può essere scritto. Per impostazione predefinita, HCatalog supporta i formati di file RCFile, CSV, JSON, SequenceFile e ORC. Per utilizzare un formato personalizzato, è necessario fornire InputFormat, OutputFormat e SerDe.

HCatalog si basa sul metastore di Hive e incorpora DDL di Hive. HCatalog fornisce interfacce di lettura e scrittura per Pig e MapReduce e utilizza l'interfaccia della riga di comando di Hive per inviare la definizione dei dati e i comandi di esplorazione dei metadati.