Introduzione alle strutture dati

Pandas si occupa delle seguenti tre strutture di dati:

  • Series
  • DataFrame
  • Panel

Queste strutture di dati sono costruite sopra l'array Numpy, il che significa che sono veloci.

Dimensione e descrizione

Il modo migliore per pensare a queste strutture di dati è che la struttura di dati di dimensione superiore è un contenitore della sua struttura di dati di dimensione inferiore. Ad esempio, DataFrame è un contenitore di Series, Panel è un contenitore di DataFrame.

Struttura dati Dimensioni Descrizione
Serie 1 Array omogeneo etichettato 1D, dimensione immutabile.
Frame di dati 2 Struttura tabulare generica con etichetta 2D, dimensione mutevole con colonne tipizzate in modo potenzialmente eterogeneo.
Pannello 3 Matrice di dimensioni modificabili con etichetta 3D generale.

La creazione e la gestione di array a due o più dimensioni è un compito noioso, l'utente deve considerare l'orientamento del set di dati durante la scrittura delle funzioni. Ma utilizzando le strutture dati di Panda, lo sforzo mentale dell'utente è ridotto.

Ad esempio, con i dati tabulari (DataFrame) è più semanticamente utile pensare a index (le righe) e il file columns invece dell'asse 0 e dell'asse 1.

Mutabilità

Tutte le strutture dati di Pandas sono modificabili in valore (possono essere modificate) e ad eccezione delle serie tutte sono modificabili in dimensione. La serie è di dimensioni immutabili.

Note- DataFrame è ampiamente utilizzato e una delle strutture dati più importanti. Il pannello viene utilizzato molto meno.

Serie

La serie è una matrice unidimensionale come una struttura con dati omogenei. Ad esempio, la serie seguente è una raccolta di numeri interi 10, 23, 56, ...

10 23 56 17 52 61 73 90 26 72

Punti chiave

  • Dati omogenei
  • Dimensioni immutabili
  • Valori dei dati mutevoli

DataFrame

DataFrame è un array bidimensionale con dati eterogenei. Per esempio,

Nome Età Genere Valutazione
Steve 32 Maschio 3.45
Lia 28 Femmina 4.6
Vin 45 Maschio 3.9
Katie 38 Femmina 2.78

La tabella rappresenta i dati di un team di vendita di un'organizzazione con la valutazione complessiva delle prestazioni. I dati sono rappresentati in righe e colonne. Ogni colonna rappresenta un attributo e ogni riga rappresenta una persona.

Tipo di dati delle colonne

I tipi di dati delle quattro colonne sono i seguenti:

Colonna genere
Nome Corda
Età Numero intero
Genere Corda
Valutazione Galleggiante

Punti chiave

  • Dati eterogenei
  • Dimensioni mutevoli
  • Dati mutevoli

Pannello

Il pannello è una struttura dati tridimensionale con dati eterogenei. È difficile rappresentare il pannello nella rappresentazione grafica. Ma un pannello può essere illustrato come un contenitore di DataFrame.

Punti chiave

  • Dati eterogenei
  • Dimensioni mutevoli
  • Dati mutevoli