Statistiche - Analisi dei residui

L'analisi dei residui viene utilizzata per valutare l'appropriatezza di un modello di regressione lineare definendo i residui ed esaminando i grafici del diagramma dei residui.

Residuo

Residuo ($ e $) si riferisce alla differenza tra il valore osservato ($ y $) e il valore previsto ($ \ hat y $). Ogni punto dati ha un residuo.

$ {residual = viewedValue - predictedValue \\ [7pt] e = y - \ hat y} $

Terreno residuo

Un grafico dei residui è un grafico in cui i residui sono sull'asse verticale e la variabile indipendente è sull'asse orizzontale. Se i punti sono dispersi in modo casuale attorno all'asse orizzontale, un modello di regressione lineare è appropriato per i dati; in caso contrario, scegli un modello non lineare.

Tipi di diagramma dei residui

L'esempio seguente mostra alcuni modelli nei grafici residui.

Nel primo caso, i punti vengono dispersi in modo casuale. Quindi il modello di regressione lineare è preferito. Nel secondo e terzo caso, i punti sono dispersi in modo non casuale e suggeriscono che è preferibile un metodo di regressione non lineare.

Esempio

Problem Statement:

Verificare dove un modello di regressione lineare è appropriato per i seguenti dati.

$ x $ 60 70 80 85 95
$ y $ (valore effettivo) 70 65 70 95 85
$ \ hat y $ (valore previsto) 65.411 71.849 78.288 81.507 87.945

Solution:

Step 1: Calcola i residui per ogni punto dati.

$ x $ 60 70 80 85 95
$ y $ (valore effettivo) 70 65 70 95 85
$ \ hat y $ (valore previsto) 65.411 71.849 78.288 81.507 87.945
$ e $ (residuo) 4.589 -6.849 -8.288 13.493 -2.945

Step 2: - Disegna il grafico del diagramma dei residui.

Step 3: - Verificare la casualità dei residui.

Qui il diagramma dei residui mostra uno schema casuale: il primo residuo è positivo, i seguenti due sono negativi, il quarto è positivo e l'ultimo residuo è negativo. Poiché il modello è abbastanza casuale, il che indica che un modello di regressione lineare è appropriato per i dati di cui sopra.