Metodi di classificazione vari
Qui discuteremo altri metodi di classificazione come algoritmi genetici, approccio insieme approssimativo e approccio insieme fuzzy.
Algoritmi genetici
L'idea di algoritmo genetico deriva dall'evoluzione naturale. Nell'algoritmo genetico, prima di tutto, viene creata la popolazione iniziale. Questa popolazione iniziale è costituita da regole generate casualmente. Possiamo rappresentare ogni regola con una stringa di bit.
Ad esempio, in un determinato set di addestramento, gli esempi sono descritti da due attributi booleani come A1 e A2. E questo set di addestramento contiene due classi come C1 e C2.
Possiamo codificare la regola IF A1 AND NOT A2 THEN C2 in una piccola stringa 100. In questa rappresentazione bit, i due bit più a sinistra rappresentano rispettivamente l'attributo A1 e A2.
Allo stesso modo, la regola IF NOT A1 AND NOT A2 THEN C1 può essere codificato come 001.
Note- Se l'attributo ha valori K dove K> 2, allora possiamo usare i bit K per codificare i valori dell'attributo. Anche le classi sono codificate nello stesso modo.
Punti da ricordare -
Sulla base della nozione di sopravvivenza del più adatto, si forma una nuova popolazione che consiste nelle regole più adatte nella popolazione attuale e anche nei valori della prole di queste regole.
L'idoneità di una regola viene valutata dalla sua accuratezza di classificazione su una serie di campioni di allenamento.
Gli operatori genetici come il crossover e la mutazione vengono applicati per creare prole.
Nel crossover, la sottostringa della coppia di regole viene scambiata per formare una nuova coppia di regole.
Nella mutazione, i bit selezionati in modo casuale nella stringa di una regola vengono invertiti.
Approccio approssimativo
Possiamo usare l'approccio della serie approssimativa per scoprire relazioni strutturali all'interno di dati imprecisi e rumorosi.
Note- Questo approccio può essere applicato solo su attributi a valori discreti. Pertanto, gli attributi a valori continui devono essere discretizzati prima del loro utilizzo.
La Rough Set Theory si basa sulla creazione di classi di equivalenza all'interno dei dati di addestramento forniti. Le tuple che formano la classe di equivalenza sono indiscernibili. Significa che i campioni sono identici rispetto agli attributi che descrivono i dati.
Ci sono alcune classi nei dati del mondo reale forniti, che non possono essere distinte in termini di attributi disponibili. Possiamo usare i set approssimativi perroughly definire tali classi.
Per una data classe C, la definizione dell'insieme approssimativo è approssimata da due insiemi come segue:
Lower Approximation of C - L'approssimazione inferiore di C è costituita da tutte le tuple di dati, che in base alla conoscenza dell'attributo, sono certe di appartenere alla classe C.
Upper Approximation of C - L'approssimazione superiore di C è costituita da tutte le tuple, che in base alla conoscenza degli attributi, non possono essere descritte come non appartenenti a C.
Il diagramma seguente mostra l'approssimazione superiore e inferiore della classe C -
Approcci Fuzzy Set
La teoria degli insiemi fuzzy è anche chiamata teoria delle possibilità. Questa teoria è stata proposta da Lotfi Zadeh nel 1965 come alternativa altwo-value logic e probability theory. Questa teoria ci permette di lavorare ad un alto livello di astrazione. Ci fornisce anche i mezzi per gestire misurazioni imprecise dei dati.
La teoria degli insiemi fuzzy ci permette anche di trattare fatti vaghi o inesatti. Ad esempio, essere un membro di una serie di redditi elevati è esatto (ad esempio, se $ 50.000 è alto, allora cosa circa $ 49.000 e $ 48.000). A differenza del tradizionale insieme CRISP in cui l'elemento appartiene a S o al suo complemento, ma nella teoria degli insiemi fuzzy l'elemento può appartenere a più di un insieme fuzzy.
Ad esempio, il valore del reddito $ 49.000 appartiene a entrambi gli insiemi fuzzy medio e alto ma a livelli diversi. La notazione in serie fuzzy per questo valore di reddito è la seguente:
mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96
dove 'm' è la funzione di appartenenza che opera sugli insiemi fuzzy di medium_income e high_income rispettivamente. Questa notazione può essere mostrata schematicamente come segue: