Data mining - Classificazione bayesiana
La classificazione bayesiana si basa sul teorema di Bayes. I classificatori bayesiani sono i classificatori statistici. I classificatori bayesiani possono prevedere le probabilità di appartenenza alla classe come la probabilità che una data tupla appartenga a una particolare classe.
Teorema di Baye
Il teorema di Bayes prende il nome da Thomas Bayes. Esistono due tipi di probabilità:
- Probabilità posteriore [P (H / X)]
- Probabilità a priori [P (H)]
dove X è la tupla di dati e H è una certa ipotesi.
Secondo il teorema di Bayes,
Rete di credenze bayesiane
Le reti di credenze bayesiane specificano distribuzioni di probabilità condizionate congiunte. Sono anche conosciuti come reti di credenze, reti bayesiane o reti probabilistiche.
Una rete di credenze consente di definire le indipendenze condizionali di classe tra sottoinsiemi di variabili.
Fornisce un modello grafico di relazione causale su cui è possibile eseguire l'apprendimento.
Possiamo usare una rete bayesiana addestrata per la classificazione.
Ci sono due componenti che definiscono una rete di credenze bayesiane:
- Grafico aciclico diretto
- Un insieme di tabelle di probabilità condizionate
Grafico aciclico diretto
- Ogni nodo in un grafo aciclico diretto rappresenta una variabile casuale.
- Queste variabili possono essere a valore discreto o continuo.
- Queste variabili possono corrispondere all'attributo effettivo fornito nei dati.
Rappresentazione grafica aciclica diretta
Il diagramma seguente mostra un grafico aciclico diretto per sei variabili booleane.
L'arco nel diagramma consente la rappresentazione della conoscenza causale. Ad esempio, il cancro del polmone è influenzato dalla storia familiare di cancro al polmone di una persona, nonché dal fatto che la persona sia o meno un fumatore. Vale la pena notare che la variabile PositiveXray è indipendente dal fatto che il paziente abbia una storia familiare di cancro ai polmoni o che il paziente sia un fumatore, dato che sappiamo che il paziente ha un cancro ai polmoni.
Tabella delle probabilità condizionali
La tabella di probabilità condizionale per i valori della variabile LungCancer (LC) che mostra ogni possibile combinazione dei valori dei suoi nodi padre, FamilyHistory (FH) e Smoker (S) è la seguente: