ETL - Introduzione

ETL sta per Extract, Transform and Load. Uno strumento ETL estrae i dati da diversi sistemi di origine RDBMS, trasforma i dati come applicare calcoli, concatenare, ecc. E quindi caricare i dati nel sistema Data Warehouse. I dati vengono caricati nel sistema DW sotto forma di tabelle delle dimensioni e dei fatti.

Estrazione

  • Un'area di staging è richiesta durante il caricamento ETL. Ci sono vari motivi per cui è richiesta un'area di sosta.

  • I sistemi di origine sono disponibili solo per un periodo di tempo specifico per l'estrazione dei dati. Questo periodo di tempo è inferiore al tempo totale di caricamento dei dati. Pertanto, l'area di staging consente di estrarre i dati dal sistema di origine e di conservarli nell'area di staging prima della fine della fascia oraria.

  • L'area di gestione temporanea è necessaria quando si desidera ottenere i dati da più origini dati insieme o se si desidera unire due o più sistemi insieme. Ad esempio, non sarà possibile eseguire una query SQL unendo due tabelle da due database fisicamente diversi.

  • La fascia oraria delle estrazioni dei dati per i diversi sistemi varia in base al fuso orario e alle ore di funzionamento.

  • I dati estratti dai sistemi di origine possono essere utilizzati in più sistemi di data warehouse, archivi di dati operativi, ecc.

  • ETL consente di eseguire trasformazioni complesse e richiede un'area aggiuntiva per memorizzare i dati.

Trasformare

Nella trasformazione dei dati, si applica una serie di funzioni ai dati estratti per caricarli nel sistema di destinazione. I dati, che non richiedono alcuna trasformazione, sono noti come spostamento diretto o trasferimento dei dati.

È possibile applicare diverse trasformazioni ai dati estratti dal sistema di origine. Ad esempio, puoi eseguire calcoli personalizzati. Se desideri la somma delle entrate delle vendite e questa non è nel database, puoi applicare ilSUM formula durante la trasformazione e caricare i dati.

Ad esempio, se hai il nome e il cognome in una tabella in colonne diverse, puoi usare concatenate prima del caricamento.

Caricare

Durante la fase di caricamento, i dati vengono caricati nel sistema di destinazione finale e possono essere un file flat o un sistema di Data Warehouse.