Apache Tajo - Impostazioni di configurazione

La configurazione di Tajo si basa sul sistema di configurazione di Hadoop. Questo capitolo spiega in dettaglio le impostazioni di configurazione di Tajo.

Impostazioni di base

Tajo utilizza i seguenti due file di configurazione:

  • catalog-site.xml - configurazione per il server di catalogo.
  • tajo-site.xml - configurazione per altri moduli Tajo.

Configurazione in modalità distribuita

L'installazione in modalità distribuita viene eseguita su Hadoop Distributed File System (HDFS). Seguiamo i passaggi per configurare la configurazione della modalità distribuita Tajo.

tajo-site.xml

Questo file è disponibile @ /path/to/tajo/confdirectory e funge da configurazione per altri moduli Tajo. Per accedere a Tajo in modalità distribuita, applica le seguenti modifiche a“tajo-site.xml”.

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://hostname:port/tajo</value> 
</property>
  
<property> 
   <name>tajo.master.umbilical-rpc.address</name> 
   <value>hostname:26001</value> 
</property> 
 
<property> 
   <name>tajo.master.client-rpc.address</name> 
   <value>hostname:26002</value> 
</property>
  
<property> 
   <name>tajo.catalog.client-rpc.address</name> 
   <value>hostname:26005</value> 
</property>

Configurazione del nodo principale

Tajo utilizza HDFS come tipo di archiviazione principale. La configurazione è la seguente e dovrebbe essere aggiunta a“tajo-site.xml”.

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://namenode_hostname:port/path</value> 
</property>

Configurazione del catalogo

Se vuoi personalizzare il servizio catalogo, copia $path/to/Tajo/conf/catalogsite.xml.template per $path/to/Tajo/conf/catalog-site.xml e aggiungi una delle seguenti configurazioni secondo necessità.

Ad esempio, se usi “Hive catalog store” per accedere a Tajo, la configurazione dovrebbe essere la seguente:

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.HCatalogStore</value> 
</property>

Se hai bisogno di archiviare MySQL catalogo, quindi applica le seguenti modifiche:

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.MySQLStore</value> 
</property> 

<property> 
   <name>tajo.catalog.jdbc.connection.id</name> 
   <value><mysql user name></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.connection.password</name> 
   <value><mysql user password></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.uri</name> 
   <value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
      ?createDatabaseIfNotExist = true</value> 
</property>

Allo stesso modo, è possibile registrare gli altri cataloghi supportati da Tajo nel file di configurazione.

Configurazione lavoratore

Per impostazione predefinita, TajoWorker memorizza i dati temporanei sul file system locale. È definito nel file "tajo-site.xml" come segue:

<property> 
   <name>tajo.worker.tmpdir.locations</name> 
   <value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value> 
</property>

Per aumentare la capacità di eseguire attività di ciascuna risorsa di lavoro, scegli la seguente configurazione:

<property> 
   <name>tajo.worker.resource.cpu-cores</name> 
   <value>12</value> 
</property>
 
<property> 
   <name>tajo.task.resource.min.memory-mb</name> 
   <value>2000</value> 
</property>
  
<property> 
   <name>tajo.worker.resource.disks</name> 
   <value>4</value> 
</property>

Per far funzionare il lavoratore Tajo in una modalità dedicata, scegli la seguente configurazione:

<property> 
   <name>tajo.worker.resource.dedicated</name> 
   <value>true</value> 
</property>