Python - Misurazione della tendenza centrale

Tendenza matematicamente centrale significa misurare il centro o la distribuzione della posizione dei valori di un insieme di dati. Dà un'idea del valore medio dei dati nel set di dati e anche un'indicazione di quanto ampiamente i valori sono diffusi nel set di dati. Ciò a sua volta aiuta a valutare le possibilità che un nuovo input si adatti al set di dati esistente e quindi la probabilità di successo.

Ci sono tre misure principali della tendenza centrale che possono essere calcolate utilizzando i metodi nella libreria python di panda.

  • Media - È il valore medio dei dati che è una divisione della somma dei valori con il numero di valori.

  • Mediana: è il valore medio nella distribuzione quando i valori sono disposti in ordine crescente o decrescente.

  • Modalità: è il valore più comune in una distribuzione.

Calcolo della media e della mediana

Le funzioni panda possono essere utilizzate direttamente per calcolare questi valori.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()

Suo output è il seguente -

Mean Values in the Distribution
Age       31.833333
Rating     3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age       29.50
Rating     3.79
dtype: float64

Modalità di calcolo

La modalità può essere disponibile o meno in una distribuzione a seconda che i dati siano continui o che ci siano valori con frequenza massima. Prendiamo una semplice distribuzione di seguito per scoprire la modalità. Qui abbiamo un valore che ha la massima frequenza nella distribuzione.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#Create a DataFrame
df = pd.DataFrame(d)

print df.mode()

Suo output è il seguente -

Age      Name
0   25.0    Andres
1    NaN  Chanchal
2    NaN    Gasper
3    NaN      Jack
4    NaN     James
5    NaN       Lee
6    NaN    Naviya
7    NaN     Ricky
8    NaN     Smith
9    NaN     Steve
10   NaN       Tom
11   NaN       Vin