Data mining - Terminologie

Estrazione dei dati

Il data mining è definito come l'estrazione di informazioni da un enorme insieme di dati. In altre parole possiamo dire che il data mining sta estraendo la conoscenza dai dati. Queste informazioni possono essere utilizzate per una qualsiasi delle seguenti applicazioni:

  • Analisi di mercato
  • Intercettazione di una frode
  • Fidelizzazione dei clienti
  • Controllo di produzione
  • Esplorazione della scienza

Motore di data mining

Il motore di data mining è molto essenziale per il sistema di data mining. Consiste in una serie di moduli funzionali che svolgono le seguenti funzioni:

  • Characterization
  • Analisi di associazione e correlazione
  • Classification
  • Prediction
  • Analisi di gruppo
  • Analisi anomale
  • Analisi dell'evoluzione

base di conoscenza

Questa è la conoscenza del dominio. Questa conoscenza viene utilizzata per guidare la ricerca o valutare l'interesse dei modelli risultanti.

Scoperta della conoscenza

Alcune persone considerano il data mining come la scoperta della conoscenza, mentre altri considerano il data mining una fase essenziale nel processo di scoperta della conoscenza. Ecco l'elenco dei passaggi coinvolti nel processo di scoperta della conoscenza:

  • Pulizia dei dati
  • Integrazione dei dati
  • Selezione dei dati
  • Trasformazione dei dati
  • Estrazione dei dati
  • Valutazione del modello
  • Presentazione della conoscenza

Interfaccia utente

L'interfaccia utente è il modulo del sistema di data mining che aiuta la comunicazione tra gli utenti e il sistema di data mining. L'interfaccia utente consente le seguenti funzionalità:

  • Interagisci con il sistema specificando un'attività di query di data mining.
  • Fornire informazioni per aiutare a focalizzare la ricerca.
  • Mining basato sui risultati di data mining intermedi.
  • Sfoglia schemi di database e data warehouse o strutture di dati.
  • Valuta i modelli estratti.
  • Visualizza i modelli in diverse forme.

Integrazione dei dati

L'integrazione dei dati è una tecnica di pre-elaborazione dei dati che unisce i dati da più origini dati eterogenee in un archivio dati coerente. L'integrazione dei dati può comportare dati incoerenti e quindi necessita di pulizia dei dati.

Pulizia dei dati

La pulizia dei dati è una tecnica che viene applicata per rimuovere i dati rumorosi e correggere le incongruenze nei dati. La pulizia dei dati comporta trasformazioni per correggere i dati errati. La pulizia dei dati viene eseguita come fase di pre-elaborazione dei dati durante la preparazione dei dati per un data warehouse.

Selezione dei dati

La selezione dei dati è il processo in cui i dati rilevanti per l'attività di analisi vengono recuperati dal database. A volte la trasformazione e il consolidamento dei dati vengono eseguiti prima del processo di selezione dei dati.

Cluster

Cluster si riferisce a un gruppo di oggetti simili. L'analisi dei cluster si riferisce alla formazione di un gruppo di oggetti che sono molto simili tra loro ma sono molto diversi dagli oggetti in altri cluster.

Trasformazione dei dati

In questa fase, i dati vengono trasformati o consolidati in moduli appropriati per il mining, eseguendo operazioni di riepilogo o aggregazione.