Python - Panda
Pandas è una libreria Python open source utilizzata per la manipolazione e l'analisi dei dati ad alte prestazioni utilizzando le sue potenti strutture di dati. Python con i panda è in uso in una varietà di domini accademici e commerciali, tra cui finanza, economia, statistica, pubblicità, analisi web e altro ancora. Utilizzando Pandas, possiamo eseguire cinque passaggi tipici nell'elaborazione e nell'analisi dei dati, indipendentemente dall'origine dei dati: caricare, organizzare, manipolare, modellare e analizzare i dati.
Di seguito sono elencate alcune delle caratteristiche importanti di Panda che viene utilizzato specificamente per l'elaborazione dei dati e il lavoro di analisi dei dati.
Caratteristiche principali dei panda
- Oggetto DataFrame veloce ed efficiente con indicizzazione predefinita e personalizzata.
- Strumenti per caricare i dati in oggetti dati in memoria da diversi formati di file.
- Allineamento dei dati e gestione integrata dei dati mancanti.
- Rimodellamento e rotazione dei set di date.
- Affettatura, indicizzazione e sottoinsiemi basati su etichette di grandi set di dati.
- Le colonne di una struttura dati possono essere eliminate o inserite.
- Raggruppa per dati per aggregazioni e trasformazioni.
- Fusione e unione di dati ad alte prestazioni.
- Funzionalità Time Series.
Pandas si occupa delle seguenti tre strutture di dati:
- Series
- DataFrame
Queste strutture di dati sono costruite sopra l'array Numpy, rendendole veloci ed efficienti.
Dimensione e descrizione
Il modo migliore per pensare a queste strutture di dati è che la struttura di dati di dimensione superiore è un contenitore della sua struttura di dati di dimensione inferiore. Ad esempio, DataFrame è un contenitore di Series, Panel è un contenitore di DataFrame.
Struttura dati | Dimensioni | Descrizione |
---|---|---|
Serie | 1 | Matrice omogenea etichettata 1D, non modificabile. |
Frame di dati | 2 | Struttura tabulare generica con etichetta 2D, dimensione mutevole con colonne tipizzate in modo potenzialmente eterogeneo. |
DataFrame è ampiamente utilizzato ed è la struttura dati più importante.
Serie
La serie è una matrice unidimensionale come una struttura con dati omogenei. Ad esempio, la serie seguente è una raccolta di numeri interi 10, 23, 56, ...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Punti chiave della serie
- Dati omogenei
- Dimensioni immutabili
- Valori dei dati mutevoli
DataFrame
DataFrame è un array bidimensionale con dati eterogenei. Per esempio,
Nome | Età | Genere | Valutazione |
---|---|---|---|
Steve | 32 | Maschio | 3.45 |
Lia | 28 | Femmina | 4.6 |
Vin | 45 | Maschio | 3.9 |
Katie | 38 | Femmina | 2.78 |
La tabella rappresenta i dati di un team di vendita di un'organizzazione con la valutazione complessiva delle prestazioni. I dati sono rappresentati in righe e colonne. Ogni colonna rappresenta un attributo e ogni riga rappresenta una persona.
Tipo di dati delle colonne
I tipi di dati delle quattro colonne sono i seguenti:
Colonna | genere |
---|---|
Nome | Corda |
Età | Numero intero |
Genere | Corda |
Valutazione | Galleggiante |
Punti chiave del data frame
- Dati eterogenei
- Dimensioni mutevoli
- Dati mutevoli
Vedremo molti esempi sull'uso della libreria panda di python nel lavoro di Data science nei prossimi capitoli.