Introduzione a Python
Nel primo capitolo abbiamo imparato in cosa consiste il web scraping. In questo capitolo, vediamo come implementare il web scraping usando Python.
Perché Python per Web Scraping?
Python è uno strumento popolare per l'implementazione del web scraping. Il linguaggio di programmazione Python viene utilizzato anche per altri progetti utili relativi alla sicurezza informatica, ai test di penetrazione e alle applicazioni forensi digitali. Utilizzando la programmazione di base di Python, il web scraping può essere eseguito senza utilizzare altri strumenti di terze parti.
Il linguaggio di programmazione Python sta guadagnando enorme popolarità e le ragioni che rendono Python una buona soluzione per i progetti di web scraping sono le seguenti:
Semplicità della sintassi
Python ha la struttura più semplice rispetto ad altri linguaggi di programmazione. Questa caratteristica di Python semplifica i test e uno sviluppatore può concentrarsi maggiormente sulla programmazione.
Moduli integrati
Un altro motivo per utilizzare Python per il web scraping sono le utili librerie integrate ed esterne che possiede. Possiamo eseguire molte implementazioni relative al web scraping utilizzando Python come base per la programmazione.
Linguaggio di programmazione open source
Python ha un enorme supporto dalla comunità perché è un linguaggio di programmazione open source.
Ampia gamma di applicazioni
Python può essere utilizzato per varie attività di programmazione che vanno da piccoli script di shell alle applicazioni web aziendali.
Installazione di Python
La distribuzione Python è disponibile per piattaforme come Windows, MAC e Unix / Linux. Dobbiamo scaricare solo il codice binario applicabile alla nostra piattaforma per installare Python. Ma nel caso in cui il codice binario per la nostra piattaforma non fosse disponibile, dobbiamo avere un compilatore C in modo che il codice sorgente possa essere compilato manualmente.
Possiamo installare Python su varie piattaforme come segue:
Installazione di Python su Unix e Linux
È necessario seguire i passaggi indicati di seguito per installare Python su macchine Unix / Linux -
Step 1 - Vai al link https://www.python.org/downloads/
Step 2 - Scarica il codice sorgente zippato disponibile per Unix / Linux sul link sopra.
Step 3 - Estrai i file sul tuo computer.
Step 4 - Utilizzare i seguenti comandi per completare l'installazione:
run ./configure script
make
make install
Puoi trovare Python installato nella posizione standard /usr/local/bin e le sue biblioteche all'indirizzo /usr/local/lib/pythonXX, dove XX è la versione di Python.
Installazione di Python su Windows
È necessario seguire i passaggi indicati di seguito per installare Python su macchine Windows -
Step 1 - Vai al link https://www.python.org/downloads/
Step 2 - Scarica il programma di installazione di Windows python-XYZ.msi file, dove XYZ è la versione che dobbiamo installare.
Step 3 - Ora salva il file di installazione sul tuo computer locale ed esegui il file MSI.
Step 4 - Alla fine, esegui il file scaricato per aprire la procedura guidata di installazione di Python.
Installazione di Python su Macintosh
Dobbiamo usare Homebrew per l'installazione di Python 3 su Mac OS X. Homebrew è facile da installare e un ottimo programma di installazione di pacchetti.
Homebrew può essere installato anche utilizzando il seguente comando:
$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"
Per aggiornare il gestore dei pacchetti, possiamo usare il seguente comando:
$ brew update
Con l'aiuto del seguente comando, possiamo installare Python3 sulla nostra macchina MAC -
$ brew install python3
Configurazione del PERCORSO
È possibile utilizzare le seguenti istruzioni per impostare il percorso su vari ambienti:
Impostazione del percorso su Unix / Linux
Utilizzare i seguenti comandi per impostare i percorsi utilizzando varie shell dei comandi:
Per la shell csh
setenv PATH "$PATH:/usr/local/bin/python".
Per bash shell (Linux)
ATH="$PATH:/usr/local/bin/python".
Per sh o ksh shell
PATH="$PATH:/usr/local/bin/python".
Configurazione del percorso su Windows
Per impostare il percorso su Windows, possiamo usare il percorso %path%;C:\Python al prompt dei comandi e quindi premere Invio.
Esecuzione di Python
Possiamo avviare Python usando uno dei seguenti tre modi:
Interprete interattivo
Un sistema operativo come UNIX e DOS che fornisce un interprete o una shell della riga di comando può essere utilizzato per avviare Python.
Possiamo iniziare a codificare nell'interprete interattivo come segue:
Step 1 - Entra python dalla riga di comando.
Step 2 - Quindi, possiamo iniziare subito a scrivere codice nell'interprete interattivo.
$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS
Script dalla riga di comando
Possiamo eseguire uno script Python dalla riga di comando invocando l'interprete. Può essere inteso come segue:
$python script.py # Unix/Linux
or
python% script.py # Unix/Linux
or
C: >python script.py # Windows/DOS
Ambiente di sviluppo integrato
Possiamo anche eseguire Python dall'ambiente GUI se il sistema dispone di un'applicazione GUI che supporta Python. Di seguito sono riportati alcuni IDE che supportano Python su varie piattaforme:
IDE for UNIX - UNIX, per Python, ha IDLE IDE.
IDE for Windows - Windows ha PythonWin IDE che ha anche la GUI.
IDE for Macintosh - Macintosh ha IDLE IDE che può essere scaricato come file MacBinary o BinHex dal sito web principale.