Statistiche - Regressione lineare

Una volta stabilito il grado di relazione tra le variabili utilizzando l'analisi di correlazione, è naturale approfondire la natura della relazione. L'analisi di regressione aiuta a determinare la relazione di causa ed effetto tra le variabili. È possibile prevedere il valore di altre variabili (chiamate variabili dipendenti) se i valori delle variabili indipendenti possono essere previsti utilizzando un metodo grafico o il metodo algebrico.

Metodo grafico

Si tratta di disegnare un diagramma a dispersione con variabile indipendente sull'asse X e variabile dipendente sull'asse Y. Dopodiché viene tracciata una linea in modo tale da attraversare la maggior parte della distribuzione, con i punti rimanenti distribuiti quasi uniformemente su entrambi i lati della linea.

Una linea di regressione è nota come la linea di adattamento migliore che riassume il movimento generale dei dati. Mostra i migliori valori medi di una variabile corrispondenti ai valori medi dell'altra. La linea di regressione si basa sul criterio secondo cui è una linea retta che riduce al minimo la somma delle deviazioni al quadrato tra i valori previsti e osservati della variabile dipendente.

Metodo algebrico

Il metodo algebrico sviluppa due equazioni di regressione di X su Y e Y su X.

Equazione di regressione di Y su X

$ {Y = a + bX} $

Dove -

  • $ {Y} $ = Variabile dipendente

  • $ {X} $ = Variabile indipendente

  • $ {a} $ = Costante che mostra l'intercetta Y

  • $ {b} $ = Costante che mostra la pendenza della linea

I valori di aeb si ottengono dalle seguenti equazioni normali:

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $

Dove -

  • $ {N} $ = Numero di osservazioni

Equazione di regressione di X su Y

$ {X = a + bY} $

Dove -

  • $ {X} $ = Variabile dipendente

  • $ {Y} $ = Variabile indipendente

  • $ {a} $ = Costante che mostra l'intercetta Y

  • $ {b} $ = Costante che mostra la pendenza della linea

I valori di aeb si ottengono dalle seguenti equazioni normali:

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $

Dove -

  • $ {N} $ = Numero di osservazioni

Esempio

Problem Statement:

Un ricercatore ha scoperto che esiste una correlazione tra le tendenze di peso di padre e figlio. Ora è interessato a sviluppare l'equazione di regressione su due variabili dai dati forniti:

Peso del padre (in Kg) 69 63 66 64 67 64 70 66 68 67 65 71
Peso del figlio (in Kg) 70 65 68 65 69 66 68 65 71 67 64 72

Sviluppare

  1. Equazione di regressione di Y su X.

  2. Equazione di regressione di su Y.

Solution:

$ {X} $ $ {X ^ 2} $ $ {Y} $ $ {Y ^ 2} $ $ {XY} $
69 4761 70 4900 4830
63 3969 65 4225 4095
66 4356 68 4624 4488
64 4096 65 4225 4160
67 4489 69 4761 4623
64 4096 66 4356 4224
70 4900 68 4624 4760
66 4356 65 4225 4290
68 4624 71 5041 4828
67 4489 67 4489 4489
65 4225 64 4096 4160
71 5041 72 5184 5112
$ {\ sum X = 800} $ $ {\ sum X ^ 2 = 53,402} $ $ {\ sum Y = 810} $ $ {\ sum Y ^ 2 = 54,750} $ $ {\ sum XY = 54,059} $

Equazione di regressione di Y su X

Y = a + bX

Dove, aeb sono ottenuti da equazioni normali

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2 \\ [7pt] Dove \ \ sum Y = 810, \ sum X = 800 , \ sum X ^ 2 = 53,402 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)

$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)

Moltiplicando l'equazione (i) per 800 e l'equazione (ii) per 12, otteniamo:

96000 a + 640000 b = 648000 ... (iii)

96000 a + 640824 b = 648588 ... (iv)

Sottraendo l'equazione (iv) da (iii)

-824 b = -588

$ {\ Rightarrow} $ b = -.0713

Sostituendo il valore di b nell'eq. (io)

810 = 12a + 800 (-0,713)

810 = 12a + 570,4

12a = 239,6

$ {\ Rightarrow} $ a = 19,96

Quindi l'equazione Y su X può essere scritta come

$ {Y = 19,96 - 0,713X} $

Equazione di regressione di X su Y

X = a + bY

Dove, aeb sono ottenuti da equazioni normali

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2 \\ [7pt] Dove \ \ sum Y = 810, \ sum Y ^ 2 = 54,750 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)

$ {\ Rightarrow} $ 54.049 = 810a + 54, 750 ... (vi)

Moltiplicando eq (v) per 810 ed eq (vi) per 12, otteniamo

9720 a + 656100 b = 648000 ... (vii)

9720 a + 65700 b = 648588 ... (viii)

Sottraendo l'eq viii dall'eq vii

900b = -588

$ {\ Rightarrow} $ b = 0,653

Sostituendo il valore di b nell'equazione (v)

800 = 12a + 810 (0,653)

12a = 271,07

$ {\ Rightarrow} $ a = 22,58

Quindi l'equazione di regressione di X e Y è

$ {X = 22,58 + 0,653Y} $