Statistiche - Test di Kolmogorov Smirnov

Questo test viene utilizzato in situazioni in cui è necessario effettuare un confronto tra una distribuzione del campione osservata e una distribuzione teorica.

KS One Sample Test

Questo test viene utilizzato come test di bontà di adattamento ed è ideale quando la dimensione del campione è piccola. Confronta la funzione di distribuzione cumulativa per una variabile con una distribuzione specificata. L'ipotesi nulla presume che non ci siano differenze tra la distribuzione osservata e quella teorica e il valore della statistica test 'D' è calcolato come:

Formula

$D = Maximum |F_o(X)-F_r(X)|$

Dove -

  • ${F_o(X)}$ = Distribuzione di frequenza cumulativa osservata di un campione casuale di n osservazioni.

  • e ${F_o(X) = \frac{k}{n}}$ = (Numero di osservazioni ≤ X) / (Numero totale di osservazioni).

  • ${F_r(X)}$ = La distribuzione di frequenza teorica.

Il valore critico di ${D}$ si trova dai valori della tabella KS per un test di esempio.

Acceptance Criteria: Se il valore calcolato è inferiore al valore critico, accettare l'ipotesi nulla.

Rejection Criteria: Se il valore calcolato è maggiore del valore della tabella, rifiutare l'ipotesi nulla.

Esempio

Problem Statement:

In uno studio condotto da vari flussi di un college 60 studenti, con un numero uguale di studenti tratti da ogni flusso, siamo stati intervistati e la loro intenzione di entrare a far parte del Club di teatro del college è stata notata.

  B.Sc. BA B.Com MA M.Com
No. in ogni classe 5 9 11 16 19

Ci si aspettava che 12 studenti di ogni classe si unissero al Club di teatro. Utilizzando il test KS per scoprire se c'è qualche differenza tra le classi degli studenti riguardo alla loro intenzione di entrare a far parte del Club di recitazione.

Solution:

${H_o}$: Non c'è differenza tra studenti di flussi diversi rispetto alla loro intenzione di entrare a far parte del club di teatro.

Sviluppiamo le frequenze cumulative per le distribuzioni osservate e teoriche.

Flussi Numero di studenti interessati a partecipare ${F_O(X)}$ ${F_T(X)}$ ${|F_O(X)-F_T(X)|}$
  Osservato
(O)
Teorico
(T)
     
B.Sc. 5 12 5/60 12/60 7/60
BA 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
MA 16 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Totale n = 60        

Statistica del test ${|D|}$ è calcolato come:

$D = Maximum {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

Il valore della tabella di D al livello di significatività del 5% è dato da

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

Poiché il valore calcolato è maggiore del valore critico, quindi rifiutiamo l'ipotesi nulla e concludiamo che c'è una differenza tra studenti di diversi flussi nella loro intenzione di aderire al Club.

KS Two Sample Test

Quando invece di uno, sono presenti due campioni indipendenti, è possibile utilizzare il test di due campioni KS per verificare l'accordo tra due distribuzioni cumulative. L'ipotesi nulla afferma che non c'è differenza tra le due distribuzioni. La statistica D viene calcolata nello stesso modo del test KS One Sample.

Formula

${D = Maximum |{F_n}_1(X)-{F_n}_2(X)|}$

Dove -

  • ${n_1}$ = Osservazioni dal primo campione.

  • ${n_2}$ = Osservazioni dal secondo campione.

Si è visto che quando le distribuzioni cumulative mostrano una grande deviazione massima ${|D|}$ indica una differenza tra le due distribuzioni campionarie.

Il valore critico di D per i campioni dove ${n_1 = n_2}$ed è ≤ 40, viene utilizzata la tabella KS per due casi campione. quando${n_1}$ e / o ${n_2}$> 40 quindi si dovrebbe utilizzare la tabella KS per grandi campioni di test a due campioni. L'ipotesi nulla è accettata se il valore calcolato è inferiore al valore della tabella e viceversa.

Pertanto, l'uso di uno qualsiasi di questi test non parametrici aiuta un ricercatore a testare il significato dei suoi risultati quando le caratteristiche della popolazione target sono sconosciute o non sono state fatte supposizioni su di esse.