Agile Data Science - Visualizzazione dei dati

La visualizzazione dei dati gioca un ruolo molto importante nella scienza dei dati. Possiamo considerare la visualizzazione dei dati come un modulo di scienza dei dati. La scienza dei dati include più della semplice creazione di modelli predittivi. Include la spiegazione dei modelli e il loro utilizzo per comprendere i dati e prendere decisioni. La visualizzazione dei dati è parte integrante della presentazione dei dati nel modo più convincente.

Dal punto di vista della scienza dei dati, la visualizzazione dei dati è una caratteristica di evidenziazione che mostra i cambiamenti e le tendenze.

Considera le seguenti linee guida per una visualizzazione dei dati efficace:

  • Posiziona i dati su una scala comune.

  • L'uso delle barre è più efficace rispetto a cerchi e quadrati.

  • Per i grafici a dispersione è necessario utilizzare il colore corretto.

  • Usa il grafico a torta per mostrare le proporzioni.

  • La visualizzazione Sunburst è più efficace per i grafici gerarchici.

Agile necessita di un semplice linguaggio di scripting per la visualizzazione dei dati e con la scienza dei dati in collaborazione "Python" è il linguaggio suggerito per la visualizzazione dei dati.

Esempio 1

L'esempio seguente mostra la visualizzazione dei dati del PIL calcolato in anni specifici. "Matplotlib" è la migliore libreria per la visualizzazione dei dati in Python. L'installazione di questa libreria è mostrata di seguito:

Considera il codice seguente per capirlo:

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Produzione

Il codice precedente genera il seguente output:

Esistono molti modi per personalizzare i grafici con etichette degli assi, stili di linea e indicatori di punto. Concentriamoci sul prossimo esempio che dimostra la migliore visualizzazione dei dati. Questi risultati possono essere utilizzati per un output migliore.

Esempio 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Produzione

Il codice precedente genera il seguente output: