Tecniche di regressione

La regressione è una tecnica statistica che aiuta a qualificare la relazione tra le variabili economiche correlate. La prima fase prevede la stima del coefficiente della variabile indipendente e quindi la misurazione dell'affidabilità del coefficiente stimato. Ciò richiede la formulazione di un'ipotesi e, sulla base dell'ipotesi, possiamo creare una funzione.

Se un manager vuole determinare la relazione tra le spese pubblicitarie dell'azienda e i suoi ricavi di vendita, sarà sottoposto al test di ipotesi. Supponendo che maggiori spese pubblicitarie portino a maggiori vendite per un'azienda. Il gestore raccoglie i dati sulla spesa pubblicitaria e sui ricavi di vendita in un determinato periodo di tempo. Questa ipotesi può essere tradotta nella funzione matematica, dove porta a:

Y = A + Bx

Dove Y è la vendita, x è la spesa pubblicitaria, A e B sono costanti.

Dopo aver tradotto l'ipotesi nella funzione, la base per questo è trovare la relazione tra le variabili dipendenti e indipendenti. Il valore della variabile dipendente è della massima importanza per i ricercatori e dipende dal valore di altre variabili. La variabile indipendente viene utilizzata per spiegare la variazione nella variabile dipendente. Può essere classificato in due tipi:

  • Simple regression - Una variabile indipendente

  • Multiple regression - Diverse variabili indipendenti

Regressione semplice

Di seguito sono riportati i passaggi per costruire l'analisi di regressione:

  • Specifica il modello di regressione
  • Ottieni dati sulle variabili
  • Stima le relazioni quantitative
  • Verifica la significatività statistica dei risultati
  • Utilizzo dei risultati nel processo decisionale

La formula per la regressione semplice è:

Y = a + bX + u

Y= variabile dipendente

X= variabile indipendente

a= intercetta

b= pendenza

u= fattore casuale

I dati trasversali forniscono informazioni su un gruppo di entità in un dato momento, mentre i dati di serie temporali forniscono informazioni su un'entità nel tempo. Quando stimiamo l'equazione di regressione, implica il processo per scoprire la migliore relazione lineare tra le variabili dipendenti e indipendenti.

Metodo dei minimi quadrati ordinari (OLS)

Il metodo dei minimi quadrati ordinari è progettato per adattare una linea attraverso una dispersione di punti in modo tale da ridurre al minimo la somma delle deviazioni al quadrato dei punti dalla linea. È un metodo statistico. Di solito i pacchetti software eseguono la stima OLS.

Y = a + bX

Coefficiente di determinazione (R 2 )

Il coefficiente di determinazione è una misura che indica che la percentuale di variazione della variabile dipendente è dovuta alle variazioni delle variabili indipendenti. R 2 è una misura della bontà del modello di adattamento. Di seguito sono riportati i metodi:

Somma totale dei quadrati (TSS)

Somma delle deviazioni al quadrato dei valori campionari di Y dalla media di Y.

TSS = SUM ( Yi − Y)2

Yi = variabili dipendenti

Y = media delle variabili dipendenti

i = numero di osservazioni

Somma dei quadrati di regressione (RSS)

Somma delle deviazioni al quadrato dei valori stimati di Y dalla media di Y.

RSS = SUM ( Ỷi − uY)2

i = valore stimato di Y

Y = media delle variabili dipendenti

i = numero di variazioni

Errore somma dei quadrati (ESS)

Somma delle deviazioni al quadrato dei valori campionari di Y dai valori stimati di Y.

ESS = SUM ( Yi − Ỷi)2

i = valore stimato di Y

Yi = variabili dipendenti

i = numero di osservazioni

R2 =
RSS / TSS
= 1 -
ESS / TSS

R 2 misura la proporzione della deviazione totale di Y dalla sua media che è spiegata dal modello di regressione. Più vicino è R 2 all'unità, maggiore è il potere esplicativo dell'equazione di regressione. Un R 2 vicino a 0 indica che l'equazione di regressione avrà pochissimo potere esplicativo.

Per valutare i coefficienti di regressione, viene utilizzato un campione della popolazione anziché l'intera popolazione. È importante formulare ipotesi sulla popolazione basate sul campione e esprimere un giudizio su quanto siano buone queste ipotesi.

Valutazione dei coefficienti di regressione

Ogni campione della popolazione genera la propria intercetta. Per calcolare la differenza statistica possono essere utilizzati i seguenti metodi:

Two tailed test −

Ipotesi nulla: H 0 : b = 0

Ipotesi alternativa: H a : b ≠ 0

One tailed test −

Ipotesi nulla: H 0 : b> 0 (o b <0)

Ipotesi alternativa: H a : b <0 (o b> 0)

Statistic Test −

t =
(b - E (b)) / SE b

b = coefficiente stimato

E (b) = b = 0 (ipotesi nulla)

SE b = Errore standard del coefficiente

.

Valore di tdipende dal grado di libertà, da uno o due test falliti e dal livello di significatività. Per determinare il valore critico dit, è possibile utilizzare la tabella t. Quindi viene il confronto del valore t con il valore critico. È necessario rifiutare l'ipotesi nulla se il valore assoluto del test statistico è maggiore o uguale al valore t critico. Non rifiutare l'ipotesi nulla, I il valore assoluto del test statistico è inferiore al valore t critico.

Analisi di regressione multipla

A differenza della regressione semplice nell'analisi di regressione multipla, i coefficienti indicano la variazione delle variabili dipendenti assumendo che i valori delle altre variabili siano costanti.

Viene chiamato il test della significatività statistica F-test. Il test F è utile in quanto misura la significatività statistica dell'intera equazione di regressione piuttosto che solo per un individuo. Qui Nell'ipotesi nulla, non c'è relazione tra la variabile dipendente e le variabili indipendenti della popolazione.

La formula è - H 0 : b1 = b2 = b3 =…. = bk = 0

Non esiste alcuna relazione tra la variabile dipendente e il k variabili indipendenti per la popolazione.

F-test static −

$$ F \: = \: \ frac {\ left (\ frac {R ^ 2} {K} \ right)} {\ frac {(1-R ^ 2)} {(nk-1)}} $$

Valore critico di Fdipende dal grado di libertà e dal livello di significatività del numeratore e del denominatore. La tabella F può essere utilizzata per determinare il valore F critico. Rispetto al valore F con il valore critico (F *) -

Se F> F *, dobbiamo rifiutare l'ipotesi nulla.

Se F <F *, non rifiutare l'ipotesi nulla poiché non esiste una relazione significativa tra la variabile dipendente e tutte le variabili indipendenti.