Data Mining - Valutazione
Data Warehouse
Un data warehouse presenta le seguenti caratteristiche a supporto del processo decisionale della direzione:
Subject Oriented- Il data warehouse è orientato al soggetto perché ci fornisce le informazioni su un argomento piuttosto che sulle operazioni in corso dell'organizzazione. Questi soggetti possono essere prodotti, clienti, fornitori, vendite, ricavi, ecc. Il data warehouse non si concentra sulle operazioni in corso, bensì sulla modellazione e analisi dei dati per il processo decisionale.
Integrated - Il data warehouse è costruito integrando dati da fonti eterogenee come database relazionali, file flat ecc. Questa integrazione migliora l'analisi efficace dei dati.
Time Variant- I dati raccolti in un data warehouse sono identificati con un determinato periodo di tempo. I dati in un data warehouse forniscono informazioni da un punto di vista storico.
Non-volatile- Non volatile significa che i dati precedenti non vengono rimossi quando vengono aggiunti nuovi dati. Il data warehouse è tenuto separato dal database operativo, pertanto i frequenti cambiamenti nel database operativo non si riflettono nel data warehouse.
Data Warehousing
Il data warehousing è il processo di costruzione e utilizzo del data warehouse. Un data warehouse viene costruito integrando i dati da più origini eterogenee. Supporta report analitici, query strutturate e / o ad hoc e processi decisionali.
Il data warehousing implica la pulizia dei dati, l'integrazione dei dati e il consolidamento dei dati. Per integrare database eterogenei, abbiamo i seguenti due approcci:
- Approccio basato sulla query
- Approccio guidato dall'aggiornamento
Approccio basato su query
Questo è l'approccio tradizionale per integrare database eterogenei. Questo approccio viene utilizzato per creare wrapper e integratori su più database eterogenei. Questi integratori sono noti anche come mediatori.
Processo di approccio basato sulla query
Quando una query viene inviata a un lato client, un dizionario di metadati traduce la query nelle query, appropriate per il singolo sito eterogeneo coinvolto.
Ora queste query vengono mappate e inviate al Query Processor locale.
I risultati di siti eterogenei sono integrati in una serie di risposte globali.
Svantaggi
Questo approccio presenta i seguenti svantaggi:
L'approccio basato sulla query richiede processi di integrazione e filtraggio complessi.
È molto inefficiente e molto costoso per query frequenti.
Questo approccio è costoso per le query che richiedono aggregazioni.
Approccio guidato dall'aggiornamento
I sistemi di data warehouse odierni seguono un approccio guidato dall'aggiornamento piuttosto che l'approccio tradizionale discusso in precedenza. Nell'approccio basato sull'aggiornamento, le informazioni provenienti da più fonti eterogenee vengono integrate in anticipo e archiviate in un magazzino. Queste informazioni sono disponibili per query e analisi dirette.
Vantaggi
Questo approccio presenta i seguenti vantaggi:
Questo approccio fornisce prestazioni elevate.
I dati possono essere copiati, elaborati, integrati, annotati, riepilogati e ristrutturati in anticipo nell'archivio dati semantico.
L'elaborazione delle query non richiede l'interfaccia con l'elaborazione nelle origini locali.
Dal Data Warehousing (OLAP) al Data Mining (OLAM)
Online Analytical Mining si integra con Online Analytical Processing con data mining e conoscenza del mining in database multidimensionali. Ecco il diagramma che mostra l'integrazione di OLAP e OLAM -
Importanza di OLAM
OLAM è importante per i seguenti motivi:
High quality of data in data warehouses- Gli strumenti di data mining sono necessari per lavorare su dati integrati, coerenti e puliti. Questi passaggi sono molto costosi nella preelaborazione dei dati. I data warehouse costruiti da tale preelaborazione sono preziose fonti di dati di alta qualità anche per OLAP e data mining.
Available information processing infrastructure surrounding data warehouses - L'infrastruttura di elaborazione delle informazioni si riferisce all'accesso, all'integrazione, al consolidamento e alla trasformazione di più database eterogenei, strutture di accesso al Web e di servizio, reportistica e strumenti di analisi OLAP.
OLAP−based exploratory data analysis- L'analisi esplorativa dei dati è necessaria per un'efficace estrazione dei dati. OLAM fornisce funzionalità per il data mining su vari sottoinsiemi di dati ea diversi livelli di astrazione.
Online selection of data mining functions - L'integrazione di OLAP con più funzioni di data mining e il mining analitico online offre agli utenti la flessibilità di selezionare le funzioni di data mining desiderate e di scambiare dinamicamente le attività di data mining.