PySpark - Configurazione dell'ambiente

In questo capitolo capiremo la configurazione dell'ambiente di PySpark.

Note - Questo considerando che hai Java e Scala installati sul tuo computer.

Ora scarichiamo e configuriamo PySpark con i seguenti passaggi.

Step 1- Vai alla pagina di download ufficiale di Apache Spark e scarica l'ultima versione di Apache Spark disponibile lì. In questo tutorial, stiamo usandospark-2.1.0-bin-hadoop2.7.

Step 2- Ora, estrai il file tar Spark scaricato. Per impostazione predefinita, verrà scaricato nella directory Download.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Creerà una directory spark-2.1.0-bin-hadoop2.7. Prima di avviare PySpark, è necessario impostare i seguenti ambienti per impostare il percorso Spark e il filePy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

Oppure, per impostare gli ambienti di cui sopra a livello globale, inseriscili nel file .bashrc file. Quindi eseguire il comando seguente affinché gli ambienti funzionino.

# source .bashrc

Ora che abbiamo impostato tutti gli ambienti, andiamo alla directory Spark e richiamiamo la shell PySpark eseguendo il seguente comando:

# ./bin/pyspark

Questo avvierà la tua shell PySpark.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<