Apprendimento automatico con Python - Ecosistema

Un'introduzione a Python

Python è un popolare linguaggio di programmazione orientato agli oggetti con le capacità del linguaggio di programmazione di alto livello. La sua sintassi facile da apprendere e la capacità di portabilità lo rendono popolare in questi giorni. I fatti seguenti ci danno l'introduzione a Python:

  • Python è stato sviluppato da Guido van Rossum allo Stichting Mathematisch Centrum nei Paesi Bassi.

  • È stato scritto come il successore del linguaggio di programmazione denominato "ABC".

  • La sua prima versione è stata rilasciata nel 1991.

  • Il nome Python è stato scelto da Guido van Rossum da uno show televisivo chiamato Monty Python's Flying Circus.

  • È un linguaggio di programmazione open source, il che significa che possiamo scaricarlo gratuitamente e utilizzarlo per sviluppare programmi. Può essere scaricato da www.python.org .

  • Il linguaggio di programmazione Python ha le caratteristiche di Java e C sia. Ha l'elegante codice "C" e, d'altra parte, ha classi e oggetti come Java per la programmazione orientata agli oggetti.

  • È un linguaggio interpretato, il che significa che il codice sorgente del programma Python verrà prima convertito in bytecode e quindi eseguito dalla macchina virtuale Python.

Punti di forza e di debolezza di Python

Ogni linguaggio di programmazione ha alcuni punti di forza oltre che di debolezza, così come Python.

Punti di forza

Secondo studi e sondaggi, Python è il quinto linguaggio più importante nonché il linguaggio più popolare per l'apprendimento automatico e la scienza dei dati. È a causa dei seguenti punti di forza che Python ha:

Easy to learn and understand- La sintassi di Python è più semplice; quindi è relativamente facile, anche per i principianti, imparare e capire la lingua.

Multi-purpose language - Python è un linguaggio di programmazione multiuso perché supporta la programmazione strutturata, la programmazione orientata agli oggetti e la programmazione funzionale.

Huge number of modules- Python ha un numero enorme di moduli per coprire ogni aspetto della programmazione. Questi moduli sono facilmente disponibili per l'uso, rendendo quindi Python un linguaggio estensibile.

Support of open source community- Essendo un linguaggio di programmazione open source, Python è supportato da una comunità di sviluppatori molto ampia. Per questo motivo, i bug possono essere facilmente risolti dalla comunità Python. Questa caratteristica rende Python molto robusto e adattabile.

Scalability - Python è un linguaggio di programmazione scalabile perché fornisce una struttura migliorata per supportare programmi di grandi dimensioni rispetto agli script di shell.

Debolezza

Sebbene Python sia un linguaggio di programmazione popolare e potente, ha il suo punto debole nella velocità di esecuzione lenta.

La velocità di esecuzione di Python è lenta rispetto ai linguaggi compilati perché Python è un linguaggio interpretato. Questa può essere la principale area di miglioramento per la comunità Python.

Installazione di Python

Per lavorare in Python, dobbiamo prima installarlo. Puoi eseguire l'installazione di Python in uno dei due modi seguenti:

  • Installazione di Python individualmente

  • Utilizzo della distribuzione Python preconfezionata - Anaconda

Discutiamoli ciascuno in dettaglio.

Installazione di Python individualmente

Se vuoi installare Python sul tuo computer, allora devi scaricare solo il codice binario applicabile per la tua piattaforma. La distribuzione Python è disponibile per piattaforme Windows, Linux e Mac.

Quella che segue è una rapida panoramica dell'installazione di Python sulle piattaforme sopra menzionate:

On Unix and Linux platform

Con l'aiuto dei seguenti passaggi, possiamo installare Python su piattaforma Unix e Linux -

  • Per prima cosa, vai su www.python.org/downloads/ .

  • Quindi, fare clic sul collegamento per scaricare il codice sorgente zippato disponibile per Unix / Linux.

  • Ora, scarica ed estrai i file.

  • Successivamente, possiamo modificare il file Modules / Setup se vogliamo personalizzare alcune opzioni.

    • Quindi, scrivi il comando run ./configure script

    • make

    • fare installazione

On Windows platform

Con l'aiuto dei seguenti passaggi, possiamo installare Python sulla piattaforma Windows -

  • Per prima cosa, vai su www.python.org/downloads/ .

  • Quindi, fare clic sul collegamento per il file python-XYZ.msi del programma di installazione di Windows. Qui XYZ è la versione che desideriamo installare.

  • Ora dobbiamo eseguire il file scaricato. Ci porterà alla procedura guidata di installazione di Python, che è facile da usare. Ora, accetta le impostazioni predefinite e attendi fino al termine dell'installazione.

On Macintosh platform

Per Mac OS X, Homebrew, si consiglia un programma di installazione di pacchetti fantastico e facile da usare per installare Python 3. Nel caso in cui non si disponga di Homebrew, è possibile installarlo con l'aiuto del seguente comando:

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

Può essere aggiornato con il comando sottostante -

$ brew update

Ora, per installare Python3 sul tuo sistema, dobbiamo eseguire il seguente comando:

$ brew install python3

Utilizzo della distribuzione Python preconfezionata: Anaconda

Anaconda è una raccolta pacchettizzata di Python che include tutte le librerie ampiamente utilizzate nella scienza dei dati. Possiamo seguire i seguenti passaggi per configurare l'ambiente Python usando Anaconda -

  • Step 1- Per prima cosa, dobbiamo scaricare il pacchetto di installazione richiesto dalla distribuzione di Anaconda. Il link per lo stesso è www.anaconda.com/distribution/ . Puoi scegliere tra Windows, Mac e Linux OS secondo le tue esigenze.

  • Step 2- Quindi, seleziona la versione di Python che desideri installare sulla tua macchina. L'ultima versione di Python è la 3.7. Lì otterrai le opzioni per il programma di installazione grafico a 64 bit e 32 bit entrambi.

  • Step 3- Dopo aver selezionato il sistema operativo e la versione di Python, scaricherà il programma di installazione di Anaconda sul tuo computer. Ora, fai doppio clic sul file e il programma di installazione installerà il pacchetto Anaconda.

  • Step 4 - Per verificare se è installato o meno, apri un prompt dei comandi e digita Python come segue -

Puoi anche verificarlo in una conferenza video dettagliata su www.tutorialspoint.com/python_essentials_online_training/getting_started_with_anaconda.asp .

Perché Python per la scienza dei dati?

Python è il quinto linguaggio più importante e il linguaggio più popolare per l'apprendimento automatico e la scienza dei dati. Le seguenti sono le caratteristiche di Python che lo rendono la scelta di linguaggio preferita per la scienza dei dati:

Ampio set di pacchetti

Python ha un ampio e potente set di pacchetti pronti per essere utilizzati in vari domini. Ha anche pacchetti comenumpy, scipy, pandas, scikit-learn ecc. che sono necessari per l'apprendimento automatico e la scienza dei dati.

Facile prototipazione

Un'altra caratteristica importante di Python che lo rende la scelta del linguaggio per la scienza dei dati è la prototipazione facile e veloce. Questa funzione è utile per sviluppare un nuovo algoritmo.

Funzionalità di collaborazione

Il campo della scienza dei dati ha fondamentalmente bisogno di una buona collaborazione e Python fornisce molti strumenti utili che lo rendono estremamente.

Una lingua per molti domini

Un tipico progetto di data science include vari domini come l'estrazione dei dati, la manipolazione dei dati, l'analisi dei dati, l'estrazione delle funzionalità, la modellazione, la valutazione, la distribuzione e l'aggiornamento della soluzione. Poiché Python è un linguaggio multiuso, consente al data scientist di affrontare tutti questi domini da una piattaforma comune.

Componenti dell'ecosistema Python ML

In questa sezione, discutiamo alcune librerie di Data Science di base che formano i componenti dell'ecosistema di apprendimento automatico di Python. Questi componenti utili rendono Python un linguaggio importante per la scienza dei dati. Sebbene ci siano molti di questi componenti, discutiamo qui alcuni dei componenti importanti dell'ecosistema Python:

Jupyter Notebook

I notebook Jupyter forniscono fondamentalmente un ambiente computazionale interattivo per lo sviluppo di applicazioni di Data Science basate su Python. In precedenza sono noti come notebook ipython. Le seguenti sono alcune delle caratteristiche dei notebook Jupyter che lo rendono uno dei migliori componenti dell'ecosistema Python ML:

  • I taccuini Jupyter possono illustrare il processo di analisi passo dopo passo organizzando le cose come codice, immagini, testo, output ecc. In modo graduale.

  • Aiuta un data scientist a documentare il processo di pensiero mentre sviluppa il processo di analisi.

  • Si può anche catturare il risultato come parte del notebook.

  • Con l'aiuto dei taccuini jupyter, possiamo condividere il nostro lavoro anche con un collega.

Installazione ed esecuzione

Se stai utilizzando la distribuzione Anaconda, non è necessario installare separatamente il notebook jupyter poiché è già installato con esso. Devi solo andare su Anaconda Prompt e digitare il seguente comando:

C:\>jupyter notebook

Dopo aver premuto Invio, avvierà un server notebook su localhost: 8888 del tuo computer. È mostrato nella seguente schermata:

Ora, dopo aver fatto clic sulla scheda Nuovo, otterrai un elenco di opzioni. Seleziona Python 3 e ti porterà al nuovo notebook per iniziare a lavorarci. Lo vedrai nelle seguenti schermate:

D'altra parte, se si utilizza la distribuzione Python standard, il notebook jupyter può essere installato utilizzando il popolare programma di installazione di pacchetti Python, pip.

pip install jupyter

Tipi di celle in Jupyter Notebook

I seguenti sono i tre tipi di celle in un quaderno jupyter:

Code cells- Come suggerisce il nome, possiamo usare queste celle per scrivere codice. Dopo aver scritto il codice / contenuto, lo invierà al kernel associato al notebook.

Markdown cells- Possiamo usare queste celle per annotare il processo di calcolo. Possono contenere elementi come testo, immagini, equazioni Latex, tag HTML ecc.

Raw cells- Il testo scritto in essi viene visualizzato così com'è. Queste celle servono fondamentalmente per aggiungere il testo che non desideriamo venga convertito dal meccanismo di conversione automatica di jupyter notebook.

Per uno studio più dettagliato del notebook jupyter, è possibile andare al collegamento www.tutorialspoint.com/jupyter/index.htm .

NumPy

È un altro componente utile che rende Python uno dei linguaggi preferiti per Data Science. Fondamentalmente sta per Numerical Python e consiste di oggetti array multidimensionali. Utilizzando NumPy, possiamo eseguire le seguenti importanti operazioni:

  • Operazioni matematiche e logiche su array.

  • Trasformazione di Fourier

  • Operazioni associate all'algebra lineare.

Possiamo anche vedere NumPy come la sostituzione di MatLab perché NumPy viene utilizzato principalmente insieme a Scipy (Scientific Python) e Mat-plotlib (libreria di plottaggio).

Installation and Execution

Se stai utilizzando la distribuzione Anaconda, non è necessario installare NumPy separatamente poiché è già installato con esso. Devi solo importare il pacchetto nel tuo script Python con l'aiuto di quanto segue:

import numpy as np

D'altra parte, se stai utilizzando la distribuzione Python standard, NumPy può essere installato utilizzando il popolare programma di installazione di pacchetti Python, pip.

pip install NumPy

Per uno studio più dettagliato di NumPy, puoi andare al link www.tutorialspoint.com/numpy/index.htm .

Panda

È un'altra utile libreria Python che rende Python uno dei linguaggi preferiti per Data Science. Pandas è fondamentalmente utilizzato per la manipolazione dei dati, le discussioni e l'analisi. È stato sviluppato da Wes McKinney nel 2008. Con l'aiuto di Pandas, nell'elaborazione dei dati possiamo eseguire i seguenti cinque passaggi:

  • Load
  • Prepare
  • Manipulate
  • Model
  • Analyze

Rappresentazione dei dati in Panda

L'intera rappresentazione dei dati in Panda viene eseguita con l'aiuto delle seguenti tre strutture di dati:

Series- È fondamentalmente un ndarray unidimensionale con un'etichetta dell'asse, il che significa che è come un semplice array con dati omogenei. Ad esempio, la serie seguente è una raccolta di numeri interi 1,5,10,15,24,25 ...

1 5 10 15 24 25 28 36 40 89

Data frame- È la struttura dati più utile e utilizzata per quasi tutti i tipi di rappresentazione e manipolazione dei dati nei panda. È fondamentalmente una struttura dati bidimensionale che può contenere dati eterogenei. In genere, i dati tabulari sono rappresentati utilizzando frame di dati. Ad esempio, la tabella seguente mostra i dati degli studenti con i loro nomi e numeri di ruolo, età e sesso -

Nome Numero del rullino Età Genere
Aarav 1 15 Maschio
Harshit 2 14 Maschio
Kanika 3 16 Femmina
Mayank 4 15 Maschio

Panel- È una struttura dati tridimensionale contenente dati eterogenei. È molto difficile rappresentare il pannello in rappresentazione grafica, ma può essere illustrato come un contenitore di DataFrame.

La tabella seguente ci fornisce la dimensione e la descrizione delle strutture di dati sopra menzionate utilizzate in Panda -

Struttura dati Dimensione Descrizione
Serie 1-D Dimensioni immutabili, dati 1-D omogenei
DataFrames 2-D Dimensione Mutabile, dati eterogenei in forma tabulare
Pannello 3-D Matrice modificabile in base alle dimensioni, contenitore di DataFrame.

Possiamo capire queste strutture di dati poiché la struttura di dati di dimensione superiore è il contenitore della struttura di dati di dimensione inferiore.

Installazione ed esecuzione

Se stai utilizzando la distribuzione Anaconda, non è necessario installare Pandas separatamente poiché è già installato con esso. Devi solo importare il pacchetto nel tuo script Python con l'aiuto di quanto segue:

import pandas as pd

D'altra parte, se si utilizza la distribuzione Python standard, è possibile installare Pandas utilizzando il popolare programma di installazione del pacchetto Python, pip.

pip install Pandas

Dopo aver installato Pandas, puoi importarlo nel tuo script Python come fatto sopra.

Esempio

Quello che segue è un esempio di creazione di una serie da ndarray usando Pandas -

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

Per uno studio più dettagliato di Panda puoi andare al link www.tutorialspoint.com/python_pandas/index.htm .

Scikit-impara

Un'altra libreria Python utile e più importante per la scienza dei dati e l'apprendimento automatico in Python è Scikit-learn. Le seguenti sono alcune caratteristiche di Scikit-learn che lo rendono così utile:

  • È costruito su NumPy, SciPy e Matplotlib.

  • È un open source e può essere riutilizzato con licenza BSD.

  • È accessibile a tutti e può essere riutilizzato in vari contesti.

  • Con l'aiuto di esso è possibile implementare un'ampia gamma di algoritmi di apprendimento automatico che coprono le principali aree del ML come classificazione, clustering, regressione, riduzione della dimensionalità, selezione del modello, ecc.

Installazione ed esecuzione

Se stai utilizzando la distribuzione Anaconda, non è necessario installare Scikit-learn separatamente poiché è già installato con essa. Devi solo usare il pacchetto nel tuo script Python. Ad esempio, con la seguente riga di script importiamo set di dati di pazienti con cancro al seno daScikit-learn -

from sklearn.datasets import load_breast_cancer

D'altra parte, se stai usando la distribuzione standard di Python e hai NumPy e SciPy, Scikit-learn può essere installato usando il popolare programma di installazione del pacchetto Python, pip.

pip install -U scikit-learn

Dopo aver installato Scikit-learn, puoi usarlo nel tuo script Python come hai fatto sopra.