Data Warehousing - Responsabili del processo
I responsabili dei processi sono responsabili del mantenimento del flusso di dati sia in entrata che in uscita dal data warehouse. Esistono tre diversi tipi di process manager:
- Load manager
- Responsabile del magazzino
- Gestore delle query
Gestore del carico del data warehouse
Load manager esegue le operazioni richieste per estrarre e caricare i dati nel database. Le dimensioni e la complessità di un gestore del carico variano tra soluzioni specifiche da un data warehouse a un altro.
Architettura Load Manager
Il gestore del carico esegue le seguenti funzioni:
Estrai i dati dal sistema di origine.
Carica rapidamente i dati estratti nell'archivio dati temporaneo.
Eseguire semplici trasformazioni in una struttura simile a quella nel data warehouse.
Estrai dati dall'origine
I dati vengono estratti dai database operativi o dai fornitori di informazioni esterni. I gateway sono i programmi applicativi utilizzati per estrarre i dati. È supportato dal DBMS sottostante e consente al programma client di generare SQL da eseguire su un server. Open Database Connection (ODBC) e Java Database Connection (JDBC) sono esempi di gateway.
Caricamento veloce
Per ridurre al minimo la finestra di carico totale, i dati devono essere caricati nel magazzino nel più breve tempo possibile.
Le trasformazioni influiscono sulla velocità di elaborazione dei dati.
È più efficace caricare i dati in un database relazionale prima di applicare trasformazioni e controlli.
La tecnologia gateway non è adatta, poiché sono inefficienti quando sono coinvolti grandi volumi di dati.
Trasformazioni semplici
Durante il caricamento, potrebbe essere necessario eseguire semplici trasformazioni. Dopo aver completato semplici trasformazioni, possiamo eseguire controlli complessi. Supponiamo di caricare la transazione di vendita EPOS, dobbiamo eseguire i seguenti controlli:
- Elimina tutte le colonne che non sono necessarie all'interno del magazzino.
- Converti tutti i valori nei tipi di dati richiesti.
Responsabile del magazzino
Il responsabile del magazzino è responsabile del processo di gestione del magazzino. Consiste in un software di sistema di terze parti, programmi C e script della shell. Le dimensioni e la complessità di un responsabile del magazzino variano tra le soluzioni specifiche.
Architettura del responsabile del magazzino
Un responsabile del magazzino include quanto segue:
- Il processo di controllo
- Stored procedure o C con SQL
- Strumento di backup / ripristino
- Script SQL
Funzioni di Warehouse Manager
Un responsabile del magazzino svolge le seguenti funzioni:
Analizza i dati per eseguire controlli di coerenza e integrità referenziale.
Crea indici, viste aziendali, viste delle partizioni rispetto ai dati di base.
Genera nuove aggregazioni e aggiorna le aggregazioni esistenti.
Genera normalizzazioni.
Trasforma e unisce i dati di origine dell'archivio temporaneo nel data warehouse pubblicato.
Esegue il backup dei dati nel data warehouse.
Archivia i dati che hanno raggiunto la fine della loro vita catturata.
Note - Un responsabile del magazzino analizza i profili delle query per determinare se l'indice e le aggregazioni sono appropriati.
Query Manager
Il gestore delle query è responsabile di indirizzare le query alle tabelle adatte. Indirizzando le query alle tabelle appropriate, accelera la richiesta di query e il processo di risposta. Inoltre, il gestore delle query è responsabile della pianificazione dell'esecuzione delle query inviate dall'utente.
Architettura di Query Manager
Un Query Manager include i seguenti componenti:
- Reindirizzamento delle query tramite lo strumento C o RDBMS
- Procedura di archiviazione
- Strumento di gestione delle query
- Pianificazione delle query tramite lo strumento C o RDBMS
- Pianificazione delle query tramite software di terze parti
Funzioni di Query Manager
Presenta i dati all'utente in una forma che comprende.
Pianifica l'esecuzione delle query inviate dall'utente finale.
Memorizza i profili delle query per consentire al responsabile del magazzino di determinare quali indici e aggregazioni sono appropriati.