Statistiche Excel avanzate - Funzione LINEST
Descrizione
La funzione LINEST calcola le statistiche per una linea utilizzando il metodo dei "minimi quadrati" per calcolare una linea retta che si adatta meglio ai dati e quindi restituisce una matrice che descrive la linea.
È inoltre possibile combinare LINEST con altre funzioni per calcolare le statistiche per altri tipi di modelli che sono lineari nei parametri sconosciuti, inclusi polinomio, logaritmico, esponenziale e serie di potenze.
Poiché questa funzione restituisce una matrice di valori, deve essere inserita come formula di matrice.
Sintassi
LINEST (known_y's, [known_x's], [const], [stats])
argomenti
Discussione | Descrizione | Obbligatorio / Facoltativo |
---|---|---|
conosciuto_y | L'insieme di valori y che già conosci nella relazione y = mx + b. Se l'intervallo di known_y è in una singola colonna, ogni colonna di known_x viene interpretata come una variabile separata. Se l'intervallo di known_y è contenuto in una singola riga, ogni riga di known_x viene interpretata come una variabile separata. |
necessario |
note_x's | Un insieme di valori x che potresti già conoscere nella relazione y = mx + b. L'intervallo di known_x può includere uno o più insiemi di variabili. Se viene utilizzata una sola variabile, known_y's e known_x possono essere intervalli di qualsiasi forma, purché abbiano dimensioni uguali. Se viene utilizzata più di una variabile, known_y's deve essere un vettore (ovvero un intervallo con un'altezza di una riga o una larghezza di una colonna). Se noto_x viene omesso, si presume che sia l'array {1,2,3, ...} che ha la stessa dimensione di known_y. |
Opzionale |
const | Un valore logico che specifica se forzare la costante b a essere uguale a 0. Se const è TRUE o omesso, b viene calcolato normalmente. Se const è FALSE, b è impostato uguale a 0 e i valori m vengono regolati per adattarsi a y = mx. |
Opzionale |
statistiche | Un valore logico che specifica se restituire statistiche di regressione aggiuntive. Se stats è TRUE, LINEST restituisce le statistiche di regressione aggiuntive. Di conseguenza, l'array restituito è {mn, mn-1, ..., m1, b; sen, sen-1, ..., se1, seb; r2, sey; F, df; ssreg, ssresid}. Se stats è FALSE o è omesso, LINEST restituisce solo gli mcoefficienti e la costante b. Le statistiche di regressione aggiuntive sono fornite nella tabella seguente. |
Opzionale |
Statistiche di regressione aggiuntive
Suor n | Statistica e descrizione |
---|---|
1 | se1,se2,...,sen I valori di errore standard per i coefficienti m1, m2, ..., mn. |
2 | seb Il valore di errore standard per la costante b (seb = # N / A quando const è FALSE). |
3 | r2 Il coefficiente di determinazione. Confronta i valori y stimati con quelli effettivi e il valore varia da 0 a 1. Se è 1, c'è una correlazione perfetta nel campione: non c'è differenza tra il valore y stimato e il valore y effettivo. All'altro estremo, se il coefficiente di determinazione è 0, l'equazione di regressione non è utile per prevedere un valore y. Per informazioni su come viene calcolato r2, vedere le note di seguito. |
4 | sey L'errore standard per la stima y. |
5 | F La statistica F o il valore F osservato. Utilizzare la statistica F per determinare se la relazione osservata tra le variabili dipendenti e indipendenti si verifica per caso. |
6 | df I gradi di libertà. Usa i gradi di libertà per trovare i valori F-critici in una tabella statistica. Confronta i valori che trovi nella tabella con la statistica F restituita da LINEST per determinare un livello di confidenza per il modello. Per informazioni su come viene calcolato df, vedere le note di seguito. |
7 | ssreg La somma di regressione dei quadrati. |
8 | ssreg La somma residua dei quadrati. Per informazioni su come vengono calcolati ssreg e ssresid, vedere le note di seguito. |
Appunti
L'equazione per la linea è -
y = mx + b
o
y = m1x1 + m2x2 + ... + b
Se ci sono più intervalli di valori x, dove i valori y dipendenti sono una funzione dei valori x indipendenti, allora -
I valori m sono coefficienti corrispondenti a ciascun valore x e b è un valore costante.
Nota che y, x e m possono essere vettori.
L'array restituito dalla funzione LINEST è {mn, mn-1… m1, b}.
LINEST può anche restituire statistiche di regressione aggiuntive
Puoi descrivere qualsiasi linea retta con la pendenza e l'intercetta y -
Slope(m) -
Per trovare la pendenza di una linea, spesso scritta come m, prendi due punti sulla linea, (x1, y1) e (x2, y2). La pendenza è uguale a
(–2 - y1) / (- 2 - x1).
Y-intercept(b) -
L'intercetta y di una linea, spesso scritta come b, è il valore di y nel punto in cui la linea incrocia l'asse y.
L'equazione di una linea retta è y = mx + b. Una volta che conosci i valori di me b, puoi calcolare qualsiasi punto sulla linea inserendo il valore y o x in quell'equazione. È inoltre possibile utilizzare la funzione TREND.
Quando si dispone di una sola variabile x indipendente, è possibile ottenere direttamente i valori di pendenza e intercetta y utilizzando le seguenti formule:
Slope -
= INDEX (LINEST (known_y's, known_x's), 1)
Y-intercept -
= INDICE (LINEST (known_y's, known_x's), 2)
La precisione della linea calcolata dalla funzione LINEST dipende dal grado di dispersione nei dati. Più i dati sono lineari, più accurato è il modello LINEST.
LINEST utilizza il metodo dei minimi quadrati per determinare il miglior adattamento per i dati. Quando si dispone di una sola variabile x indipendente, i calcoli per me b si basano sulle seguenti formule:
$$ m = \ frac {\ sum \ left (x- \ bar {x} \ right) \ left (y- \ bar {y} \ right)} {\ sum \ left (x- \ bar {x} \ a destra) ^ 2} $$
Dove x e y sono medie campionarie. cioè
x = MEDIA (x note)
y = AVERAGE (known_y's)
Le funzioni di adattamento di linee e curve LINEST e LOGEST possono calcolare la migliore linea retta o curva esponenziale che si adatta ai dati. Tuttavia, devi decidere quale dei due risultati si adatta meglio ai tuoi dati. Puoi calcolare TREND (known_y's, known_x's) per una linea retta o GROWTH (known_y's, known_x's) per una curva esponenziale. Queste funzioni, senza omettere l'argomento di known_x, restituiscono un array di valori y previsti lungo quella linea o curva nei punti dati effettivi. È quindi possibile confrontare i valori previsti con i valori effettivi. Puoi tracciarli entrambi per un confronto visivo.
Nell'analisi di regressione, Excel calcola per ogni punto la differenza al quadrato tra il valore y stimato per quel punto e il suo valore y effettivo. La somma di queste differenze al quadrato è chiamata somma residua dei quadrati, ssresid. Excel calcola quindi la somma totale dei quadrati, sstotal. Quando l'argomento const = TRUE o viene omesso, la somma totale dei quadrati è la somma delle differenze al quadrato tra i valori y effettivi e la media dei valori y.
Quando l'argomento const = FALSE, la somma totale dei quadrati è la somma dei quadrati dei valori y effettivi (senza sottrarre il valore y medio da ogni singolo valore y). Quindi la somma di regressione dei quadrati, ssreg, può essere trovata da: ssreg = sstotal - ssresid. Più piccola è la somma residua dei quadrati, rispetto alla somma totale dei quadrati, maggiore è il valore del coefficiente di determinazione, r2, che è un indicatore di quanto bene l'equazione risultante dall'analisi di regressione spiega la relazione tra le variabili. Il valore di r2 è uguale a ssreg / sstotal.
In alcuni casi, una o più delle X colonne (presumendo che Y e X siano nelle colonne) potrebbero non avere un valore predittivo aggiuntivo in presenza delle altre X colonne. ad esempio, l'eliminazione di una o più colonne X potrebbe portare a valori Y previsti ugualmente accurati. In tal caso, queste colonne X ridondanti dovrebbero essere omesse dal modello di regressione. Questo fenomeno è chiamato "collinearità" perché qualsiasi colonna X ridondante può essere espressa come somma di multipli delle colonne X non ridondanti.
La funzione LINEST verifica la collinearità e rimuove eventuali colonne X ridondanti dal modello di regressione quando le identifica. Le colonne X rimosse possono essere riconosciute nell'output LINEST come aventi coefficienti 0 oltre ai valori 0 se. Se una o più colonne vengono rimosse come ridondanti, df ne risente perché df dipende dal numero di X colonne effettivamente utilizzate a scopo predittivo.
Se df viene modificato perché vengono rimosse le colonne X ridondanti, vengono influenzati anche i valori di sey e F. La collinearità dovrebbe essere relativamente rara nella pratica. Tuttavia, un caso in cui è più probabile che si verifichi è quando alcune colonne X contengono solo valori 0 e 1 come indicatori del fatto che un soggetto in un esperimento sia o meno un membro di un particolare gruppo. Se const = TRUE o viene omesso, la funzione LINEST inserisce effettivamente una colonna X aggiuntiva di tutti i valori 1 per modellare l'intercetta
Il valore di df viene calcolato come segue, quando sono presenti k colonne di x_conosciute e nessuna colonna X viene rimossa dal modello a causa della collinearità -
Se const = TRUE o viene omesso, df = n - k - 1
Se const = FALSE, df = n - k
In entrambi i casi, ogni colonna X rimossa a causa della collinearità aumenta il valore di df di 1.
Quando si immette una costante di matrice (come la x_nota) come argomento, utilizzare le virgole per separare i valori contenuti nella stessa riga e il punto e virgola per separare le righe. I caratteri separatori possono essere diversi a seconda delle impostazioni regionali.
Si noti che i valori y previsti dall'equazione di regressione potrebbero non essere validi se sono al di fuori dell'intervallo dei valori y utilizzato per determinare l'equazione.
L'algoritmo sottostante utilizzato nella funzione LINEST è diverso dall'algoritmo sottostante utilizzato nelle funzioni SLOPE e INTERCEPT. La differenza tra questi algoritmi può portare a risultati diversi quando i dati sono indeterminati e collineari.
Oltre a utilizzare LOGEST per calcolare le statistiche per altri tipi di regressione, è possibile utilizzare LINEST per calcolare un intervallo di altri tipi di regressione inserendo le funzioni delle variabili xey come serie xey per LINEST. Ad esempio, la seguente formula -
= LINEA (valori y, valori x ^ COLONNA ($ A: $ C))
Funziona quando hai una singola colonna di valori y e una singola colonna di valori x per calcolare l'approssimazione cubica (polinomio di ordine 3) del -
y = m1 * x + m2 * x ^ 2 + m3 * x * 3 + b
È possibile modificare questa formula per calcolare altri tipi di regressione, ma in alcuni casi richiede la regolazione dei valori di output e altre statistiche.
Il valore F-test restituito dalla funzione LINEST è diverso dal valore F-test restituito dalla funzione FTEST. LINEA restituisce la statistica F, mentre FTEST restituisce la probabilità.
Se l'array di known_x's non ha la stessa lunghezza dell'array di known_y, LINEST restituisce #REF! valore di errore.
Se uno qualsiasi dei valori negli array known_x o known_y forniti non è numerico (questo può includere rappresentazioni testuali di numeri, poiché la funzione LINEST non li riconosce come numeri), LINEST restituisce #VALUE! valore di errore.
Se uno degli argomenti const o stats non può essere valutato come TRUE o FALSE, LINEST restituisce #VALUE! valore di errore.
Applicabilità
Excel 2007, Excel 2010, Excel 2013, Excel 2016