Data Warehousing - Concetti

Cos'è il data warehousing?

Il data warehousing è il processo di costruzione e utilizzo di un data warehouse. Un data warehouse viene costruito integrando dati provenienti da più origini eterogenee che supportano report analitici, query strutturate e / o ad hoc e processi decisionali. Il data warehousing implica la pulizia dei dati, l'integrazione dei dati e il consolidamento dei dati.

Utilizzo delle informazioni del data warehouse

Esistono tecnologie di supporto decisionale che aiutano a utilizzare i dati disponibili in un data warehouse. Queste tecnologie aiutano i dirigenti a utilizzare il magazzino in modo rapido ed efficace. Possono raccogliere dati, analizzarli e prendere decisioni sulla base delle informazioni presenti nel magazzino. Le informazioni raccolte in un magazzino possono essere utilizzate in uno dei seguenti domini:

  • Tuning Production Strategies - Le strategie di prodotto possono essere ottimizzate riposizionando i prodotti e gestendo i portafogli di prodotti confrontando le vendite trimestrali o annuali.

  • Customer Analysis - L'analisi del cliente viene eseguita analizzando le preferenze di acquisto del cliente, i tempi di acquisto, i cicli di budget, ecc.

  • Operations Analysis- Il data warehousing aiuta anche nella gestione delle relazioni con i clienti e nell'apportare correzioni ambientali. Le informazioni ci consentono anche di analizzare le operazioni aziendali.

Integrazione di database eterogenei

Per integrare database eterogenei, abbiamo due approcci:

  • Approccio basato su query
  • Approccio guidato dall'aggiornamento

Approccio basato su query

Questo è l'approccio tradizionale per integrare database eterogenei. Questo approccio è stato utilizzato per creare wrapper e integratori su più database eterogenei. Questi integratori sono noti anche come mediatori.

Processo di approccio basato su query

  • Quando una query viene inviata a un lato client, un dizionario di metadati traduce la query in una forma appropriata per i singoli siti eterogenei coinvolti.

  • Ora queste query vengono mappate e inviate al Query Processor locale.

  • I risultati di siti eterogenei sono integrati in una serie di risposte globali.

Svantaggi

  • L'approccio basato sulla query richiede processi di integrazione e filtraggio complessi.

  • Questo approccio è molto inefficiente.

  • È molto costoso per domande frequenti.

  • Questo approccio è anche molto costoso per le query che richiedono aggregazioni.

Approccio guidato dall'aggiornamento

Questa è un'alternativa all'approccio tradizionale. I sistemi di data warehouse odierni seguono un approccio guidato dall'aggiornamento piuttosto che l'approccio tradizionale discusso in precedenza. Nell'approccio basato sull'aggiornamento, le informazioni provenienti da più fonti eterogenee vengono integrate in anticipo e vengono archiviate in un magazzino. Queste informazioni sono disponibili per query e analisi dirette.

Vantaggi

Questo approccio presenta i seguenti vantaggi:

  • Questo approccio fornisce prestazioni elevate.

  • I dati vengono copiati, elaborati, integrati, annotati, riepilogati e ristrutturati in anticipo in un archivio dati semantico.

  • L'elaborazione delle query non richiede un'interfaccia per elaborare i dati nelle origini locali.

Funzioni degli strumenti e delle utilità del data warehouse

Di seguito sono riportate le funzioni degli strumenti e delle utilità del data warehouse:

  • Data Extraction - Coinvolge la raccolta di dati da più fonti eterogenee.

  • Data Cleaning - Coinvolge la ricerca e la correzione degli errori nei dati.

  • Data Transformation - Coinvolge la conversione dei dati dal formato legacy al formato warehouse.

  • Data Loading - Comprende l'ordinamento, il riepilogo, il consolidamento, il controllo dell'integrità e la creazione di indici e partizioni.

  • Refreshing - Coinvolge l'aggiornamento dalle origini dati al magazzino.

Note - La pulizia e la trasformazione dei dati sono passaggi importanti per migliorare la qualità dei dati e i risultati del data mining.