Statistiche - Regressione lineare
Una volta stabilito il grado di relazione tra le variabili utilizzando l'analisi di correlazione, è naturale approfondire la natura della relazione. L'analisi di regressione aiuta a determinare la relazione di causa ed effetto tra le variabili. È possibile prevedere il valore di altre variabili (chiamate variabili dipendenti) se i valori delle variabili indipendenti possono essere previsti utilizzando un metodo grafico o il metodo algebrico.
Metodo grafico
Si tratta di disegnare un diagramma a dispersione con variabile indipendente sull'asse X e variabile dipendente sull'asse Y. Dopodiché viene tracciata una linea in modo tale da attraversare la maggior parte della distribuzione, con i punti rimanenti distribuiti quasi uniformemente su entrambi i lati della linea.
Una linea di regressione è nota come la linea di adattamento migliore che riassume il movimento generale dei dati. Mostra i migliori valori medi di una variabile corrispondenti ai valori medi dell'altra. La linea di regressione si basa sul criterio secondo cui è una linea retta che riduce al minimo la somma delle deviazioni al quadrato tra i valori previsti e osservati della variabile dipendente.
Metodo algebrico
Il metodo algebrico sviluppa due equazioni di regressione di X su Y e Y su X.
Equazione di regressione di Y su X
$ {Y = a + bX} $
Dove -
$ {Y} $ = Variabile dipendente
$ {X} $ = Variabile indipendente
$ {a} $ = Costante che mostra l'intercetta Y
$ {b} $ = Costante che mostra la pendenza della linea
I valori di aeb si ottengono dalle seguenti equazioni normali:
$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $
Dove -
$ {N} $ = Numero di osservazioni
Equazione di regressione di X su Y
$ {X = a + bY} $
Dove -
$ {X} $ = Variabile dipendente
$ {Y} $ = Variabile indipendente
$ {a} $ = Costante che mostra l'intercetta Y
$ {b} $ = Costante che mostra la pendenza della linea
I valori di aeb si ottengono dalle seguenti equazioni normali:
$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $
Dove -
$ {N} $ = Numero di osservazioni
Esempio
Problem Statement:
Un ricercatore ha scoperto che esiste una correlazione tra le tendenze di peso di padre e figlio. Ora è interessato a sviluppare l'equazione di regressione su due variabili dai dati forniti:
Peso del padre (in Kg) | 69 | 63 | 66 | 64 | 67 | 64 | 70 | 66 | 68 | 67 | 65 | 71 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Peso del figlio (in Kg) | 70 | 65 | 68 | 65 | 69 | 66 | 68 | 65 | 71 | 67 | 64 | 72 |
Sviluppare
Equazione di regressione di Y su X.
Equazione di regressione di su Y.
Solution:
$ {X} $ | $ {X ^ 2} $ | $ {Y} $ | $ {Y ^ 2} $ | $ {XY} $ |
---|---|---|---|---|
69 | 4761 | 70 | 4900 | 4830 |
63 | 3969 | 65 | 4225 | 4095 |
66 | 4356 | 68 | 4624 | 4488 |
64 | 4096 | 65 | 4225 | 4160 |
67 | 4489 | 69 | 4761 | 4623 |
64 | 4096 | 66 | 4356 | 4224 |
70 | 4900 | 68 | 4624 | 4760 |
66 | 4356 | 65 | 4225 | 4290 |
68 | 4624 | 71 | 5041 | 4828 |
67 | 4489 | 67 | 4489 | 4489 |
65 | 4225 | 64 | 4096 | 4160 |
71 | 5041 | 72 | 5184 | 5112 |
$ {\ sum X = 800} $ | $ {\ sum X ^ 2 = 53,402} $ | $ {\ sum Y = 810} $ | $ {\ sum Y ^ 2 = 54,750} $ | $ {\ sum XY = 54,059} $ |
Equazione di regressione di Y su X
Y = a + bX
Dove, aeb sono ottenuti da equazioni normali
$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)
$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)
Moltiplicando l'equazione (i) per 800 e l'equazione (ii) per 12, otteniamo:
96000 a + 640000 b = 648000 ... (iii)
96000 a + 640824 b = 648588 ... (iv)
Sottraendo l'equazione (iv) da (iii)
-824 b = -588
$ {\ Rightarrow} $ b = -.0713
Sostituendo il valore di b nell'eq. (io)
810 = 12a + 800 (-0,713)
810 = 12a + 570,4
12a = 239,6
$ {\ Rightarrow} $ a = 19,96
Quindi l'equazione Y su X può essere scritta come
Equazione di regressione di X su Y
X = a + bY
Dove, aeb sono ottenuti da equazioni normali
$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)
$ {\ Rightarrow} $ 54.049 = 810a + 54, 750 ... (vi)
Moltiplicando eq (v) per 810 ed eq (vi) per 12, otteniamo
9720 a + 656100 b = 648000 ... (vii)
9720 a + 65700 b = 648588 ... (viii)
Sottraendo l'eq viii dall'eq vii
900b = -588
$ {\ Rightarrow} $ b = 0,653
Sostituendo il valore di b nell'equazione (v)
800 = 12a + 810 (0,653)
12a = 271,07
$ {\ Rightarrow} $ a = 22,58
Quindi l'equazione di regressione di X e Y è