Data mining - Temi

Fondamenti teorici del data mining

Le basi teoriche del data mining includono i seguenti concetti:

Data Reduction- L'idea di base di questa teoria è di ridurre la rappresentazione dei dati che scambia l'accuratezza con la velocità in risposta alla necessità di ottenere risposte rapide e approssimative a query su database molto grandi. Alcune delle tecniche di riduzione dei dati sono le seguenti:
- Scomposizione di un valore singolo
- Wavelets
- Regression
- Modelli logaritmici
- Histograms
- Clustering
- Sampling
- Costruzione di alberi indice
Data Compression - L'idea di base di questa teoria è comprimere i dati forniti codificando nei termini di quanto segue:
- Bits
- Regole dell'Associazione
- Alberi decisionali
- Clusters
Pattern Discovery- L'idea di base di questa teoria è scoprire i modelli che si verificano in un database. Di seguito sono riportate le aree che contribuiscono a questa teoria:
- Apprendimento automatico
- Rete neurale
- Associazione mineraria
- Corrispondenza sequenziale di modelli
- Clustering
Probability Theory- Questa teoria si basa sulla teoria statistica. L'idea di base alla base di questa teoria è scoprire distribuzioni di probabilità congiunte di variabili casuali.
Probability Theory - Secondo questa teoria, il data mining trova i modelli che sono interessanti solo nella misura in cui possono essere utilizzati nel processo decisionale di alcune imprese.
Microeconomic View- Secondo questa teoria, uno schema di database è costituito da dati e modelli memorizzati in un database. Pertanto, il data mining è il compito di eseguire l'induzione sui database.
Inductive databases- Oltre alle tecniche orientate al database, sono disponibili tecniche statistiche per l'analisi dei dati. Queste tecniche possono essere applicate anche a dati scientifici e dati provenienti dalle scienze economiche e sociali.

Data mining statistico

Alcune delle tecniche di data mining statistico sono le seguenti:

Regression- I metodi di regressione vengono utilizzati per prevedere il valore della variabile di risposta da una o più variabili predittore in cui le variabili sono numeriche. Di seguito sono elencate le forme di regressione:
- Linear
- Multiple
- Weighted
- Polynomial
- Nonparametric
- Robust
Generalized Linear Models - Il modello lineare generalizzato include:
- Regressione logistica
- Regressione di Poisson
La generalizzazione del modello consente di correlare una variabile di risposta categoriale a un insieme di variabili predittore in modo simile alla modellazione della variabile di risposta numerica utilizzando la regressione lineare.
Analysis of Variance - Questa tecnica analizza -
- Dati sperimentali per due o più popolazioni descritte da una variabile di risposta numerica.
- Una o più variabili categoriali (fattori).
Mixed-effect Models- Questi modelli vengono utilizzati per analizzare i dati raggruppati. Questi modelli descrivono la relazione tra una variabile di risposta e alcune covariate nei dati raggruppati in base a uno o più fattori.
Factor Analysis- L'analisi fattoriale viene utilizzata per prevedere una variabile di risposta categoriale. Questo metodo presuppone che le variabili indipendenti seguano una distribuzione normale multivariata.
Time Series Analysis - Di seguito sono riportati i metodi per analizzare i dati di serie temporali -
- Metodi di regressione automatica.
- Modellazione ARIMA (AutoRegressive Integrated Moving Average) univariata.
- Modellazione di serie temporali a memoria lunga.

Data mining visuale

Visual Data Mining utilizza tecniche di visualizzazione dei dati e / o della conoscenza per scoprire la conoscenza implicita da set di dati di grandi dimensioni. Il data mining visivo può essere visto come un'integrazione delle seguenti discipline:

Visualizzazione dati
Estrazione dei dati

Il data mining visivo è strettamente correlato a quanto segue:

Computer grafica
Sistemi multimediali
Interazione umano-computer
Riconoscimento di modelli
Elaborazione ad alte prestazioni

In genere la visualizzazione e il data mining dei dati possono essere integrati nei seguenti modi:

Data Visualization - I dati in un database o in un data warehouse possono essere visualizzati in diversi moduli visivi elencati di seguito -
- Boxplots
- Cubi 3-D
- Grafici di distribuzione dei dati
- Curves
- Surfaces
- Collega grafici ecc.
Data Mining Result Visualization- La visualizzazione dei risultati del data mining è la presentazione dei risultati del data mining in forma visiva. Queste forme visive potrebbero essere trame sparse, boxplot, ecc.
Data Mining Process Visualization- La visualizzazione del processo di data mining presenta i diversi processi di data mining. Consente agli utenti di vedere come vengono estratti i dati. Consente inoltre agli utenti di vedere da quale database o data warehouse i dati vengono puliti, integrati, preelaborati ed estratti.

Data mining audio

Il data mining audio fa uso di segnali audio per indicare i modelli di dati o le caratteristiche dei risultati del data mining. Trasformando i modelli in suoni e meditazioni, possiamo ascoltare toni e melodie, invece di guardare le immagini, al fine di identificare qualcosa di interessante.

Data mining e filtraggio collaborativo

I consumatori oggi si imbattono in una varietà di beni e servizi durante gli acquisti. Durante le transazioni con i clienti in tempo reale, un sistema di raccomandazione aiuta il consumatore fornendo consigli sui prodotti. L'approccio di filtraggio collaborativo viene generalmente utilizzato per consigliare i prodotti ai clienti. Questi consigli si basano sulle opinioni di altri clienti.