Statistiche - Analisi dei residui
L'analisi dei residui viene utilizzata per valutare l'appropriatezza di un modello di regressione lineare definendo i residui ed esaminando i grafici del diagramma dei residui.
Residuo
Residuo ($ e $) si riferisce alla differenza tra il valore osservato ($ y $) e il valore previsto ($ \ hat y $). Ogni punto dati ha un residuo.
$ {residual = viewedValue - predictedValue \\ [7pt] e = y - \ hat y} $
Terreno residuo
Un grafico dei residui è un grafico in cui i residui sono sull'asse verticale e la variabile indipendente è sull'asse orizzontale. Se i punti sono dispersi in modo casuale attorno all'asse orizzontale, un modello di regressione lineare è appropriato per i dati; in caso contrario, scegli un modello non lineare.
Tipi di diagramma dei residui
L'esempio seguente mostra alcuni modelli nei grafici residui.
Nel primo caso, i punti vengono dispersi in modo casuale. Quindi il modello di regressione lineare è preferito. Nel secondo e terzo caso, i punti sono dispersi in modo non casuale e suggeriscono che è preferibile un metodo di regressione non lineare.
Esempio
Problem Statement:
Verificare dove un modello di regressione lineare è appropriato per i seguenti dati.
$ x $ | 60 | 70 | 80 | 85 | 95 |
---|---|---|---|---|---|
$ y $ (valore effettivo) | 70 | 65 | 70 | 95 | 85 |
$ \ hat y $ (valore previsto) | 65.411 | 71.849 | 78.288 | 81.507 | 87.945 |
Solution:
Step 1: Calcola i residui per ogni punto dati.
$ x $ | 60 | 70 | 80 | 85 | 95 |
---|---|---|---|---|---|
$ y $ (valore effettivo) | 70 | 65 | 70 | 95 | 85 |
$ \ hat y $ (valore previsto) | 65.411 | 71.849 | 78.288 | 81.507 | 87.945 |
$ e $ (residuo) | 4.589 | -6.849 | -8.288 | 13.493 | -2.945 |
Step 2: - Disegna il grafico del diagramma dei residui.
Step 3: - Verificare la casualità dei residui.
Qui il diagramma dei residui mostra uno schema casuale: il primo residuo è positivo, i seguenti due sono negativi, il quarto è positivo e l'ultimo residuo è negativo. Poiché il modello è abbastanza casuale, il che indica che un modello di regressione lineare è appropriato per i dati di cui sopra.