ETL - Introduzione
ETL sta per Extract, Transform and Load. Uno strumento ETL estrae i dati da diversi sistemi di origine RDBMS, trasforma i dati come applicare calcoli, concatenare, ecc. E quindi caricare i dati nel sistema Data Warehouse. I dati vengono caricati nel sistema DW sotto forma di tabelle delle dimensioni e dei fatti.
Estrazione
Un'area di staging è richiesta durante il caricamento ETL. Ci sono vari motivi per cui è richiesta un'area di sosta.
I sistemi di origine sono disponibili solo per un periodo di tempo specifico per l'estrazione dei dati. Questo periodo di tempo è inferiore al tempo totale di caricamento dei dati. Pertanto, l'area di staging consente di estrarre i dati dal sistema di origine e di conservarli nell'area di staging prima della fine della fascia oraria.
L'area di gestione temporanea è necessaria quando si desidera ottenere i dati da più origini dati insieme o se si desidera unire due o più sistemi insieme. Ad esempio, non sarà possibile eseguire una query SQL unendo due tabelle da due database fisicamente diversi.
La fascia oraria delle estrazioni dei dati per i diversi sistemi varia in base al fuso orario e alle ore di funzionamento.
I dati estratti dai sistemi di origine possono essere utilizzati in più sistemi di data warehouse, archivi di dati operativi, ecc.
ETL consente di eseguire trasformazioni complesse e richiede un'area aggiuntiva per memorizzare i dati.
Trasformare
Nella trasformazione dei dati, si applica una serie di funzioni ai dati estratti per caricarli nel sistema di destinazione. I dati, che non richiedono alcuna trasformazione, sono noti come spostamento diretto o trasferimento dei dati.
È possibile applicare diverse trasformazioni ai dati estratti dal sistema di origine. Ad esempio, puoi eseguire calcoli personalizzati. Se desideri la somma delle entrate delle vendite e questa non è nel database, puoi applicare ilSUM formula durante la trasformazione e caricare i dati.
Ad esempio, se hai il nome e il cognome in una tabella in colonne diverse, puoi usare concatenate prima del caricamento.
Caricare
Durante la fase di caricamento, i dati vengono caricati nel sistema di destinazione finale e possono essere un file flat o un sistema di Data Warehouse.