Data mining - Classificazione e previsione
Esistono due forme di analisi dei dati che possono essere utilizzate per estrarre modelli che descrivono classi importanti o per prevedere le tendenze future dei dati. Queste due forme sono le seguenti:
- Classification
- Prediction
I modelli di classificazione prevedono etichette di classi categoriali; ei modelli di previsione prevedono funzioni a valore continuo. Ad esempio, possiamo costruire un modello di classificazione per classificare le richieste di prestito bancario come sicure o rischiose, oppure un modello di previsione per prevedere le spese in dollari dei potenziali clienti per apparecchiature informatiche, dato il loro reddito e occupazione.
Cos'è la classificazione?
Di seguito sono riportati gli esempi di casi in cui l'attività di analisi dei dati è la classificazione:
Un addetto ai prestiti bancari vuole analizzare i dati per sapere quale cliente (richiedente prestito) è rischioso o sicuro.
Un responsabile marketing di un'azienda deve analizzare un cliente con un determinato profilo, che acquisterà un nuovo computer.
In entrambi gli esempi precedenti, viene costruito un modello o un classificatore per prevedere le etichette categoriali. Queste etichette sono rischiose o sicure per i dati della richiesta di prestito e sì o no per i dati di marketing.
Cos'è la previsione?
Di seguito sono riportati gli esempi di casi in cui l'attività di analisi dei dati è Previsione:
Supponiamo che il responsabile marketing debba prevedere quanto un dato cliente spenderà durante una vendita presso la sua azienda. In questo esempio ci preoccupiamo di prevedere un valore numerico. Pertanto l'attività di analisi dei dati è un esempio di previsione numerica. In questo caso, verrà costruito un modello o un predittore che prevede una funzione a valore continuo o un valore ordinato.
Note - L'analisi di regressione è una metodologia statistica utilizzata più spesso per la previsione numerica.
Come funziona la classificazione?
Con l'aiuto della richiesta di prestito bancario di cui abbiamo discusso in precedenza, capiamo il funzionamento della classificazione. Il processo di classificazione dei dati comprende due passaggi:
- Creazione del classificatore o del modello
- Utilizzo del classificatore per la classificazione
Creazione del classificatore o del modello
Questa fase è la fase di apprendimento o la fase di apprendimento.
In questa fase gli algoritmi di classificazione costruiscono il classificatore.
Il classificatore è costruito dal set di addestramento composto da tuple di database e dalle etichette di classe associate.
Ogni tupla che costituisce il set di addestramento viene definita categoria o classe. Queste tuple possono essere chiamate anche punti campione, oggetto o dati.
Utilizzo del classificatore per la classificazione
In questa fase, il classificatore viene utilizzato per la classificazione. Qui i dati del test vengono utilizzati per stimare l'accuratezza delle regole di classificazione. Le regole di classificazione possono essere applicate alle nuove tuple di dati se l'accuratezza è considerata accettabile.
Problemi di classificazione e previsione
Il problema principale è preparare i dati per la classificazione e la previsione. La preparazione dei dati comporta le seguenti attività:
Data Cleaning- La pulizia dei dati comporta la rimozione del rumore e il trattamento dei valori mancanti. Il rumore viene rimosso applicando tecniche di smussatura e il problema dei valori mancanti viene risolto sostituendo un valore mancante con il valore più comune per quell'attributo.
Relevance Analysis- Il database può anche avere attributi irrilevanti. L'analisi di correlazione viene utilizzata per sapere se due attributi dati sono correlati.
Data Transformation and reduction - I dati possono essere trasformati con uno dei seguenti metodi.
Normalization- I dati vengono trasformati utilizzando la normalizzazione. La normalizzazione implica il ridimensionamento di tutti i valori per un determinato attributo per farli rientrare in un piccolo intervallo specificato. La normalizzazione viene utilizzata quando nella fase di apprendimento vengono utilizzate le reti neurali oi metodi che coinvolgono le misurazioni.
Generalization- I dati possono anche essere trasformati generalizzandoli al concetto superiore. A questo scopo possiamo utilizzare il concetto di gerarchie.
Note - I dati possono anche essere ridotti con altri metodi come trasformazione wavelet, binning, analisi dell'istogramma e clustering.
Confronto tra metodi di classificazione e previsione
Ecco i criteri per confrontare i metodi di classificazione e previsione:
Accuracy- La precisione del classificatore si riferisce alla capacità del classificatore. Prevede correttamente l'etichetta della classe e l'accuratezza del predittore si riferisce alla capacità di un determinato predittore di indovinare il valore dell'attributo previsto per un nuovo dato.
Speed - Si riferisce al costo computazionale nella generazione e nell'utilizzo del classificatore o predittore.
Robustness - Si riferisce alla capacità del classificatore o predittore di fare previsioni corrette da dati rumorosi.
Scalability- La scalabilità si riferisce alla capacità di costruire il classificatore o predittore in modo efficiente; data una grande quantità di dati.
Interpretability - Si riferisce al grado di comprensione del classificatore o del predittore.