Data mining - Temi

Fondamenti teorici del data mining

Le basi teoriche del data mining includono i seguenti concetti:

  • Data Reduction- L'idea di base di questa teoria è di ridurre la rappresentazione dei dati che scambia l'accuratezza con la velocità in risposta alla necessità di ottenere risposte rapide e approssimative a query su database molto grandi. Alcune delle tecniche di riduzione dei dati sono le seguenti:

    • Scomposizione di un valore singolo

    • Wavelets

    • Regression

    • Modelli logaritmici

    • Histograms

    • Clustering

    • Sampling

    • Costruzione di alberi indice

  • Data Compression - L'idea di base di questa teoria è comprimere i dati forniti codificando nei termini di quanto segue:

    • Bits

    • Regole dell'Associazione

    • Alberi decisionali

    • Clusters

  • Pattern Discovery- L'idea di base di questa teoria è scoprire i modelli che si verificano in un database. Di seguito sono riportate le aree che contribuiscono a questa teoria:

    • Apprendimento automatico

    • Rete neurale

    • Associazione mineraria

    • Corrispondenza sequenziale di modelli

    • Clustering

  • Probability Theory- Questa teoria si basa sulla teoria statistica. L'idea di base alla base di questa teoria è scoprire distribuzioni di probabilità congiunte di variabili casuali.

  • Probability Theory - Secondo questa teoria, il data mining trova i modelli che sono interessanti solo nella misura in cui possono essere utilizzati nel processo decisionale di alcune imprese.

  • Microeconomic View- Secondo questa teoria, uno schema di database è costituito da dati e modelli memorizzati in un database. Pertanto, il data mining è il compito di eseguire l'induzione sui database.

  • Inductive databases- Oltre alle tecniche orientate al database, sono disponibili tecniche statistiche per l'analisi dei dati. Queste tecniche possono essere applicate anche a dati scientifici e dati provenienti dalle scienze economiche e sociali.

Data mining statistico

Alcune delle tecniche di data mining statistico sono le seguenti:

  • Regression- I metodi di regressione vengono utilizzati per prevedere il valore della variabile di risposta da una o più variabili predittore in cui le variabili sono numeriche. Di seguito sono elencate le forme di regressione:

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models - Il modello lineare generalizzato include:

    • Regressione logistica

    • Regressione di Poisson

    La generalizzazione del modello consente di correlare una variabile di risposta categoriale a un insieme di variabili predittore in modo simile alla modellazione della variabile di risposta numerica utilizzando la regressione lineare.

  • Analysis of Variance - Questa tecnica analizza -

    • Dati sperimentali per due o più popolazioni descritte da una variabile di risposta numerica.

    • Una o più variabili categoriali (fattori).

  • Mixed-effect Models- Questi modelli vengono utilizzati per analizzare i dati raggruppati. Questi modelli descrivono la relazione tra una variabile di risposta e alcune covariate nei dati raggruppati in base a uno o più fattori.

  • Factor Analysis- L'analisi fattoriale viene utilizzata per prevedere una variabile di risposta categoriale. Questo metodo presuppone che le variabili indipendenti seguano una distribuzione normale multivariata.

  • Time Series Analysis - Di seguito sono riportati i metodi per analizzare i dati di serie temporali -

    • Metodi di regressione automatica.

    • Modellazione ARIMA (AutoRegressive Integrated Moving Average) univariata.

    • Modellazione di serie temporali a memoria lunga.

Data mining visuale

Visual Data Mining utilizza tecniche di visualizzazione dei dati e / o della conoscenza per scoprire la conoscenza implicita da set di dati di grandi dimensioni. Il data mining visivo può essere visto come un'integrazione delle seguenti discipline:

  • Visualizzazione dati

  • Estrazione dei dati

Il data mining visivo è strettamente correlato a quanto segue:

  • Computer grafica

  • Sistemi multimediali

  • Interazione umano-computer

  • Riconoscimento di modelli

  • Elaborazione ad alte prestazioni

In genere la visualizzazione e il data mining dei dati possono essere integrati nei seguenti modi:

  • Data Visualization - I dati in un database o in un data warehouse possono essere visualizzati in diversi moduli visivi elencati di seguito -

    • Boxplots

    • Cubi 3-D

    • Grafici di distribuzione dei dati

    • Curves

    • Surfaces

    • Collega grafici ecc.

  • Data Mining Result Visualization- La visualizzazione dei risultati del data mining è la presentazione dei risultati del data mining in forma visiva. Queste forme visive potrebbero essere trame sparse, boxplot, ecc.

  • Data Mining Process Visualization- La visualizzazione del processo di data mining presenta i diversi processi di data mining. Consente agli utenti di vedere come vengono estratti i dati. Consente inoltre agli utenti di vedere da quale database o data warehouse i dati vengono puliti, integrati, preelaborati ed estratti.

Data mining audio

Il data mining audio fa uso di segnali audio per indicare i modelli di dati o le caratteristiche dei risultati del data mining. Trasformando i modelli in suoni e meditazioni, possiamo ascoltare toni e melodie, invece di guardare le immagini, al fine di identificare qualcosa di interessante.

Data mining e filtraggio collaborativo

I consumatori oggi si imbattono in una varietà di beni e servizi durante gli acquisti. Durante le transazioni con i clienti in tempo reale, un sistema di raccomandazione aiuta il consumatore fornendo consigli sui prodotti. L'approccio di filtraggio collaborativo viene generalmente utilizzato per consigliare i prodotti ai clienti. Questi consigli si basano sulle opinioni di altri clienti.