Python - Panda

Pandas è una libreria Python open source utilizzata per la manipolazione e l'analisi dei dati ad alte prestazioni utilizzando le sue potenti strutture di dati. Python con i panda è in uso in una varietà di domini accademici e commerciali, tra cui finanza, economia, statistica, pubblicità, analisi web e altro ancora. Utilizzando Pandas, possiamo eseguire cinque passaggi tipici nell'elaborazione e nell'analisi dei dati, indipendentemente dall'origine dei dati: caricare, organizzare, manipolare, modellare e analizzare i dati.

Di seguito sono elencate alcune delle caratteristiche importanti di Panda che viene utilizzato specificamente per l'elaborazione dei dati e il lavoro di analisi dei dati.

Caratteristiche principali dei panda

  • Oggetto DataFrame veloce ed efficiente con indicizzazione predefinita e personalizzata.
  • Strumenti per caricare i dati in oggetti dati in memoria da diversi formati di file.
  • Allineamento dei dati e gestione integrata dei dati mancanti.
  • Rimodellamento e rotazione dei set di date.
  • Affettatura, indicizzazione e sottoinsiemi basati su etichette di grandi set di dati.
  • Le colonne di una struttura dati possono essere eliminate o inserite.
  • Raggruppa per dati per aggregazioni e trasformazioni.
  • Fusione e unione di dati ad alte prestazioni.
  • Funzionalità Time Series.

Pandas si occupa delle seguenti tre strutture di dati:

  • Series
  • DataFrame

Queste strutture di dati sono costruite sopra l'array Numpy, rendendole veloci ed efficienti.

Dimensione e descrizione

Il modo migliore per pensare a queste strutture di dati è che la struttura di dati di dimensione superiore è un contenitore della sua struttura di dati di dimensione inferiore. Ad esempio, DataFrame è un contenitore di Series, Panel è un contenitore di DataFrame.

Struttura dati Dimensioni Descrizione
Serie 1 Matrice omogenea etichettata 1D, non modificabile.
Frame di dati 2 Struttura tabulare generica con etichetta 2D, dimensione mutevole con colonne tipizzate in modo potenzialmente eterogeneo.

DataFrame è ampiamente utilizzato ed è la struttura dati più importante.

Serie

La serie è una matrice unidimensionale come una struttura con dati omogenei. Ad esempio, la serie seguente è una raccolta di numeri interi 10, 23, 56, ...

10 23 56 17 52 61 73 90 26 72

Punti chiave della serie

  • Dati omogenei
  • Dimensioni immutabili
  • Valori dei dati mutevoli

DataFrame

DataFrame è un array bidimensionale con dati eterogenei. Per esempio,

Nome Età Genere Valutazione
Steve 32 Maschio 3.45
Lia 28 Femmina 4.6
Vin 45 Maschio 3.9
Katie 38 Femmina 2.78

La tabella rappresenta i dati di un team di vendita di un'organizzazione con la valutazione complessiva delle prestazioni. I dati sono rappresentati in righe e colonne. Ogni colonna rappresenta un attributo e ogni riga rappresenta una persona.

Tipo di dati delle colonne

I tipi di dati delle quattro colonne sono i seguenti:

Colonna genere
Nome Corda
Età Numero intero
Genere Corda
Valutazione Galleggiante

Punti chiave del data frame

  • Dati eterogenei
  • Dimensioni mutevoli
  • Dati mutevoli

Vedremo molti esempi sull'uso della libreria panda di python nel lavoro di Data science nei prossimi capitoli.