Seaborn - Stima statistica

Nella maggior parte delle situazioni, ci occupiamo di stime dell'intera distribuzione dei dati. Ma quando si tratta di stima della tendenza centrale, abbiamo bisogno di un modo specifico per riassumere la distribuzione. La media e la mediana sono le tecniche utilizzate molto spesso per stimare la tendenza centrale della distribuzione.

In tutte le trame che abbiamo appreso nella sezione precedente, abbiamo effettuato la visualizzazione dell'intera distribuzione. Parliamo ora dei grafici con i quali possiamo stimare la tendenza centrale della distribuzione.

Bar Plot

Il barplot()mostra la relazione tra una variabile categoriale e una variabile continua. I dati sono rappresentati in barre rettangolari dove la lunghezza della barra rappresenta la proporzione dei dati in quella categoria.

Il grafico a barre rappresenta la stima della tendenza centrale. Usiamo il set di dati "titanico" per apprendere i grafici a barre.

Esempio

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

Produzione

Nell'esempio sopra, possiamo vedere che il numero medio di sopravvissuti di maschi e femmine in ogni classe. Dalla trama possiamo capire che è sopravvissuto un numero maggiore di femmine rispetto ai maschi. Sia nei maschi che nelle femmine il maggior numero di sopravvissuti è di prima classe.

Un caso speciale in barplot è mostrare il numero di osservazioni in ciascuna categoria piuttosto che calcolare una statistica per una seconda variabile. Per questo, usiamocountplot().

Esempio

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()

Produzione

La trama dice che il numero di passeggeri in terza classe è superiore a quello in prima e seconda classe.

Grafici a punti

I grafici a punti funzionano come i grafici a barre ma in uno stile diverso. Piuttosto che la barra piena, il valore della stima è rappresentato dal punto ad una certa altezza sull'altro asse.

Esempio

import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()

Produzione