Python - Panda

Pandas è una libreria Python open source utilizzata per la manipolazione e l'analisi dei dati ad alte prestazioni utilizzando le sue potenti strutture di dati. Python con i panda è in uso in una varietà di domini accademici e commerciali, tra cui finanza, economia, statistica, pubblicità, analisi web e altro ancora. Utilizzando Pandas, possiamo eseguire cinque passaggi tipici nell'elaborazione e nell'analisi dei dati, indipendentemente dall'origine dei dati: caricare, organizzare, manipolare, modellare e analizzare i dati.

Di seguito sono elencate alcune delle caratteristiche importanti di Panda che viene utilizzato specificamente per l'elaborazione dei dati e il lavoro di analisi dei dati.

Caratteristiche principali dei panda

Oggetto DataFrame veloce ed efficiente con indicizzazione predefinita e personalizzata.
Strumenti per caricare i dati in oggetti dati in memoria da diversi formati di file.
Allineamento dei dati e gestione integrata dei dati mancanti.
Rimodellamento e rotazione dei set di date.
Affettatura, indicizzazione e sottoinsiemi basati su etichette di grandi set di dati.
Le colonne di una struttura dati possono essere eliminate o inserite.
Raggruppa per dati per aggregazioni e trasformazioni.
Fusione e unione di dati ad alte prestazioni.
Funzionalità Time Series.

Pandas si occupa delle seguenti tre strutture di dati:

Series
DataFrame

Queste strutture di dati sono costruite sopra l'array Numpy, rendendole veloci ed efficienti.

Dimensione e descrizione

Il modo migliore per pensare a queste strutture di dati è che la struttura di dati di dimensione superiore è un contenitore della sua struttura di dati di dimensione inferiore. Ad esempio, DataFrame è un contenitore di Series, Panel è un contenitore di DataFrame.

Struttura dati	Dimensioni	Descrizione
Serie	1	Matrice omogenea etichettata 1D, non modificabile.
Frame di dati	2	Struttura tabulare generica con etichetta 2D, dimensione mutevole con colonne tipizzate in modo potenzialmente eterogeneo.

DataFrame è ampiamente utilizzato ed è la struttura dati più importante.

Serie

La serie è una matrice unidimensionale come una struttura con dati omogenei. Ad esempio, la serie seguente è una raccolta di numeri interi 10, 23, 56, ...

10	23	56	17	52	61	73	90	26	72

Punti chiave della serie

Dati omogenei
Dimensioni immutabili
Valori dei dati mutevoli

DataFrame

DataFrame è un array bidimensionale con dati eterogenei. Per esempio,

Nome	Età	Genere	Valutazione
Steve	32	Maschio	3.45
Lia	28	Femmina	4.6
Vin	45	Maschio	3.9
Katie	38	Femmina	2.78

La tabella rappresenta i dati di un team di vendita di un'organizzazione con la valutazione complessiva delle prestazioni. I dati sono rappresentati in righe e colonne. Ogni colonna rappresenta un attributo e ogni riga rappresenta una persona.

Tipo di dati delle colonne

I tipi di dati delle quattro colonne sono i seguenti:

Colonna	genere
Nome	Corda
Età	Numero intero
Genere	Corda
Valutazione	Galleggiante

Punti chiave del data frame

Dati eterogenei
Dimensioni mutevoli
Dati mutevoli

Vedremo molti esempi sull'uso della libreria panda di python nel lavoro di Data science nei prossimi capitoli.

↰ Previous page Next page ↱

Python - Panda

Caratteristiche principali dei panda

Dimensione e descrizione

Serie

Punti chiave della serie

DataFrame

Tipo di dati delle colonne

Punti chiave del data frame

Elaborazione dati Python

Tutorial Python Data Science

Visualizzazione dei dati Python

Analisi statistica dei dati