Data Warehousing - Terminologie

In questo capitolo discuteremo alcuni dei termini più comunemente usati nel data warehousing.

Metadati

I metadati sono definiti semplicemente come dati sui dati. I dati utilizzati per rappresentare altri dati sono noti come metadati. Ad esempio, l'indice di un libro funge da metadati per i contenuti del libro. In altre parole, possiamo dire che i metadati sono i dati riassunti che ci portano ai dati dettagliati.

In termini di data warehouse, possiamo definire i metadati come segue:

  • I metadati sono una road map per il data warehouse.

  • I metadati nel data warehouse definiscono gli oggetti warehouse.

  • I metadati fungono da directory. Questa directory aiuta il sistema di supporto decisionale a individuare i contenuti di un data warehouse.

Repository di metadati

Il repository di metadati è parte integrante di un sistema di data warehouse. Contiene i seguenti metadati:

  • Business metadata - Contiene le informazioni sulla proprietà dei dati, la definizione aziendale e la modifica delle politiche.

  • Operational metadata- Include la valuta dei dati e la derivazione dei dati. La valuta dei dati si riferisce ai dati attivi, archiviati o eliminati. Derivazione dei dati significa storia dei dati migrati e trasformazione applicata su di essi.

  • Data for mapping from operational environment to data warehouse - I metadati includono i database di origine e il loro contenuto, l'estrazione dei dati, la partizione dei dati, la pulizia, le regole di trasformazione, l'aggiornamento dei dati e le regole di eliminazione.

  • The algorithms for summarization - Include algoritmi dimensionali, dati sulla granularità, aggregazione, riepilogo, ecc.

Cubo dati

Un cubo di dati ci aiuta a rappresentare i dati in più dimensioni. È definito da dimensioni e fatti. Le dimensioni sono le entità rispetto alle quali un'impresa conserva i record.

Illustrazione di Data Cube

Si supponga che un'azienda desideri tenere traccia dei record di vendita con l'aiuto del data warehouse di vendita rispetto a tempo, articolo, filiale e ubicazione. Queste dimensioni consentono di tenere traccia delle vendite mensili e in quale filiale sono stati venduti gli articoli. C'è una tabella associata a ciascuna dimensione. Questa tabella è nota come tabella delle dimensioni. Ad esempio, la tabella delle dimensioni "articolo" può avere attributi come nome_articolo, tipo_elemento e marchio_articolo.

La tabella seguente rappresenta la visualizzazione 2-D dei dati di vendita per una società rispetto alle dimensioni di tempo, articolo e ubicazione.

Ma qui, in questa tabella 2-D, abbiamo record solo per quanto riguarda l'ora e l'elemento. Le vendite per New Delhi sono mostrate rispetto al tempo e alle dimensioni degli articoli in base al tipo di articoli venduti. Se vogliamo visualizzare i dati sulle vendite con un'altra dimensione, ad esempio la dimensione della posizione, la visualizzazione 3-D sarebbe utile. La visualizzazione 3-D dei dati di vendita rispetto a tempo, articolo e ubicazione è mostrata nella tabella seguente:

La tabella 3-D sopra può essere rappresentata come cubo di dati 3-D come mostrato nella figura seguente -

Data Mart

I data mart contengono un sottoinsieme di dati a livello di organizzazione che è prezioso per gruppi specifici di persone in un'organizzazione. In altre parole, un data mart contiene solo i dati specifici di un particolare gruppo. Ad esempio, il data mart di marketing può contenere solo dati relativi ad articoli, clienti e vendite. I data mart sono limitati ai soggetti.

Punti da ricordare sui data mart

  • I server basati su Windows o su Unix / Linux vengono utilizzati per implementare i data mart. Sono implementati su server a basso costo.

  • Il ciclo di implementazione di un data mart viene misurato in brevi periodi di tempo, ovvero in settimane anziché in mesi o anni.

  • Il ciclo di vita dei data mart può essere complesso a lungo termine, se la loro pianificazione e progettazione non riguarda l'intera organizzazione.

  • I data mart sono di piccole dimensioni.

  • I data mart sono personalizzati per reparto.

  • L'origine di un data mart è un data warehouse strutturato a livello di reparto.

  • I data mart sono flessibili.

La figura seguente mostra una rappresentazione grafica dei data mart.

Magazzino virtuale

La visualizzazione su un data warehouse operativo è nota come magazzino virtuale. È facile costruire un magazzino virtuale. La creazione di un magazzino virtuale richiede capacità in eccesso sui server di database operativi.