Data mining - Classificazione bayesiana

La classificazione bayesiana si basa sul teorema di Bayes. I classificatori bayesiani sono i classificatori statistici. I classificatori bayesiani possono prevedere le probabilità di appartenenza alla classe come la probabilità che una data tupla appartenga a una particolare classe.

Teorema di Baye

Il teorema di Bayes prende il nome da Thomas Bayes. Esistono due tipi di probabilità:

  • Probabilità posteriore [P (H / X)]
  • Probabilità a priori [P (H)]

dove X è la tupla di dati e H è una certa ipotesi.

Secondo il teorema di Bayes,

P (H / X) = P (X / H) P (H) / P (X)

Rete di credenze bayesiane

Le reti di credenze bayesiane specificano distribuzioni di probabilità condizionate congiunte. Sono anche conosciuti come reti di credenze, reti bayesiane o reti probabilistiche.

  • Una rete di credenze consente di definire le indipendenze condizionali di classe tra sottoinsiemi di variabili.

  • Fornisce un modello grafico di relazione causale su cui è possibile eseguire l'apprendimento.

  • Possiamo usare una rete bayesiana addestrata per la classificazione.

Ci sono due componenti che definiscono una rete di credenze bayesiane:

  • Grafico aciclico diretto
  • Un insieme di tabelle di probabilità condizionate

Grafico aciclico diretto

  • Ogni nodo in un grafo aciclico diretto rappresenta una variabile casuale.
  • Queste variabili possono essere a valore discreto o continuo.
  • Queste variabili possono corrispondere all'attributo effettivo fornito nei dati.

Rappresentazione grafica aciclica diretta

Il diagramma seguente mostra un grafico aciclico diretto per sei variabili booleane.

L'arco nel diagramma consente la rappresentazione della conoscenza causale. Ad esempio, il cancro del polmone è influenzato dalla storia familiare di cancro al polmone di una persona, nonché dal fatto che la persona sia o meno un fumatore. Vale la pena notare che la variabile PositiveXray è indipendente dal fatto che il paziente abbia una storia familiare di cancro ai polmoni o che il paziente sia un fumatore, dato che sappiamo che il paziente ha un cancro ai polmoni.

Tabella delle probabilità condizionali

La tabella di probabilità condizionale per i valori della variabile LungCancer (LC) che mostra ogni possibile combinazione dei valori dei suoi nodi padre, FamilyHistory (FH) e Smoker (S) è la seguente: