Python - Misurazione della varianza
Nelle statistiche, la varianza è una misura della distanza di un valore in un set di dati dal valore medio. In altre parole, indica quanto sono dispersi i valori. Viene misurato utilizzando la deviazione standard. L'altro metodo comunemente usato è l'asimmetria.
Entrambi vengono calcolati utilizzando le funzioni disponibili nella libreria pandas.
Misurazione della deviazione standard
La deviazione standard è la radice quadrata della varianza. la varianza è la media della differenza al quadrato dei valori in un set di dati dal valore medio. In python calcoliamo questo valore utilizzando la funzione std () dalla libreria pandas.
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#Create a DataFrame
df = pd.DataFrame(d)
# Calculate the standard deviation
print df.std()
Suo output è il seguente -
Age 7.265527
Rating 0.661628
dtype: float64
Misurazione dell'asimmetria
È utilizzato per determinare se i dati sono simmetrici o distorti. Se l'indice è compreso tra -1 e 1, la distribuzione è simmetrica. Se l'indice non è più di -1 allora è inclinato a sinistra e se è almeno 1, allora è inclinato a destra
import pandas as pd
#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','Chanchal','Gasper','Naviya','Andres']),
'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()
Suo output è il seguente -
Age 1.443490
Rating -0.153629
dtype: float64
Quindi la distribuzione della classificazione per età è simmetrica mentre la distribuzione dell'età è inclinata a destra.