Data Warehousing - Panoramica
Il termine "Data Warehouse" è stato coniato per la prima volta da Bill Inmon nel 1990. Secondo Inmon, un data warehouse è una raccolta di dati orientata al soggetto, integrata, variabile nel tempo e non volatile. Questi dati aiutano gli analisti a prendere decisioni informate in un'organizzazione.
Un database operativo è soggetto a frequenti modifiche su base giornaliera in considerazione delle transazioni che avvengono. Supponiamo che un dirigente aziendale desideri analizzare il feedback precedente su dati come un prodotto, un fornitore o qualsiasi dato sui consumatori, il dirigente non avrà dati disponibili da analizzare perché i dati precedenti sono stati aggiornati a causa delle transazioni.
Un data warehouse ci fornisce dati generalizzati e consolidati in una vista multidimensionale. Insieme alla vista generalizzata e consolidata dei dati, un data warehouse ci fornisce anche strumenti OLAP (Online Analytical Processing). Questi strumenti ci aiutano nell'analisi interattiva ed efficace dei dati in uno spazio multidimensionale. Questa analisi si traduce nella generalizzazione dei dati e nel data mining.
Le funzioni di data mining come associazione, clustering, classificazione e previsione possono essere integrate con le operazioni OLAP per migliorare l'estrazione interattiva della conoscenza a più livelli di astrazione. Ecco perché il data warehouse è ora diventato un'importante piattaforma per l'analisi dei dati e l'elaborazione analitica online.
Capire un data warehouse
Un data warehouse è un database, che viene tenuto separato dal database operativo dell'organizzazione.
Non vengono eseguiti aggiornamenti frequenti in un data warehouse.
Possiede dati storici consolidati, che aiutano l'organizzazione ad analizzare il proprio business.
Un data warehouse aiuta i dirigenti a organizzare, comprendere e utilizzare i propri dati per prendere decisioni strategiche.
I sistemi di data warehouse aiutano nell'integrazione della diversità dei sistemi applicativi.
Un sistema di data warehouse aiuta nell'analisi dei dati storici consolidati.
Perché un data warehouse è separato dai database operativi
Un data warehouse è tenuto separato dai database operativi per i seguenti motivi:
Un database operativo è costruito per compiti e carichi di lavoro ben noti come la ricerca di record particolari, l'indicizzazione, ecc. Nel contratto, le query del data warehouse sono spesso complesse e presentano una forma generale di dati.
I database operativi supportano l'elaborazione simultanea di più transazioni. Il controllo della concorrenza e i meccanismi di ripristino sono necessari affinché i database operativi garantiscano la robustezza e la coerenza del database.
Una query di database operativa consente di leggere e modificare le operazioni, mentre una query OLAP necessita solo read only accesso ai dati memorizzati.
Un database operativo conserva i dati correnti. D'altra parte, un data warehouse conserva i dati storici.
Caratteristiche del data warehouse
Le caratteristiche chiave di un data warehouse sono discusse di seguito:
Subject Oriented- Un data warehouse è orientato al soggetto perché fornisce informazioni su un argomento piuttosto che sulle operazioni in corso dell'organizzazione. Questi soggetti possono essere prodotti, clienti, fornitori, vendite, ricavi, ecc. Un data warehouse non si concentra sulle operazioni in corso, ma piuttosto sulla modellazione e analisi dei dati per il processo decisionale.
Integrated - Un data warehouse è costruito integrando dati da fonti eterogenee come database relazionali, file flat, ecc. Questa integrazione migliora l'analisi efficace dei dati.
Time Variant- I dati raccolti in un data warehouse sono identificati con un determinato periodo di tempo. I dati in un data warehouse forniscono informazioni dal punto di vista storico.
Non-volatile- Non volatile significa che i dati precedenti non vengono cancellati quando vengono aggiunti nuovi dati. Un data warehouse viene tenuto separato dal database operativo e pertanto le frequenti modifiche nel database operativo non si riflettono nel data warehouse.
Note - Un data warehouse non richiede l'elaborazione delle transazioni, il ripristino e i controlli di concorrenza, poiché è archiviato fisicamente e separato dal database operativo.
Applicazioni di data warehouse
Come discusso in precedenza, un data warehouse aiuta i dirigenti aziendali a organizzare, analizzare e utilizzare i propri dati per il processo decisionale. Un data warehouse funge da unica parte di un sistema di feedback "a circuito chiuso" per la gestione aziendale. I data warehouse sono ampiamente utilizzati nei seguenti campi:
- Servizi finanziari
- Servizi bancari
- Beni di consumo
- Settori di vendita al dettaglio
- Produzione controllata
Tipi di data warehouse
Elaborazione delle informazioni, elaborazione analitica e data mining sono i tre tipi di applicazioni di data warehouse discussi di seguito:
Information Processing- Un data warehouse consente di elaborare i dati in esso archiviati. I dati possono essere elaborati mediante interrogazione, analisi statistica di base, reporting utilizzando campi incrociati, tabelle, grafici o grafici.
Analytical Processing- Un data warehouse supporta l'elaborazione analitica delle informazioni in esso memorizzate. I dati possono essere analizzati per mezzo di operazioni OLAP di base, inclusi slice-and-dice, drill down, drill up e pivoting.
Data Mining- Il data mining supporta la scoperta della conoscenza trovando modelli e associazioni nascosti, costruendo modelli analitici, eseguendo la classificazione e la previsione. Questi risultati di mining possono essere presentati utilizzando gli strumenti di visualizzazione.
Sr.No. | Data Warehouse (OLAP) | Database operativo (OLTP) |
---|---|---|
1 | Implica l'elaborazione storica delle informazioni. | Coinvolge l'elaborazione quotidiana. |
2 | I sistemi OLAP vengono utilizzati da knowledge worker quali dirigenti, manager e analisti. | I sistemi OLTP vengono utilizzati da impiegati, amministratori di database o professionisti del database. |
3 | Viene utilizzato per analizzare l'attività. | Viene utilizzato per gestire l'attività. |
4 | Si concentra sull'informazione fuori. | Si concentra sui dati in formato. |
5 | Si basa su Star Schema, Snowflake Schema e Fact Constellation Schema. | Si basa sul modello di relazione tra entità. |
6 | Si concentra sull'informazione fuori. | È orientato all'applicazione. |
7 | Contiene dati storici. | Contiene dati correnti. |
8 | Fornisce dati riepilogati e consolidati. | Fornisce dati primitivi e altamente dettagliati. |
9 | Fornisce una vista riepilogativa e multidimensionale dei dati. | Fornisce una vista relazionale dettagliata e piatta dei dati. |
10 | Il numero di utenti è in centinaia. | Il numero di utenti è in migliaia. |
11 | Il numero di record a cui si accede è in milioni. | Il numero di record a cui si accede è espresso in decine. |
12 | La dimensione del database va da 100 GB a 100 TB. | La dimensione del database va da 100 MB a 100 GB. |
13 | Questi sono altamente flessibili. | Fornisce prestazioni elevate. |