PySpark - Introduzione

In questo capitolo, conosceremo cos'è Apache Spark e come è stato sviluppato PySpark.

Spark - Panoramica

Apache Spark è un framework di elaborazione in tempo reale velocissimo. Esegue calcoli in memoria per analizzare i dati in tempo reale. È entrato in foto comeApache Hadoop MapReducestava eseguendo solo l'elaborazione in batch e mancava una funzione di elaborazione in tempo reale. Pertanto, è stato introdotto Apache Spark in quanto può eseguire l'elaborazione del flusso in tempo reale e può anche occuparsi dell'elaborazione in batch.

Oltre all'elaborazione in tempo reale e in batch, Apache Spark supporta anche query interattive e algoritmi iterativi. Apache Spark dispone di un proprio gestore cluster, dove può ospitare la propria applicazione. Sfrutta Apache Hadoop sia per l'archiviazione che per l'elaborazione. UtilizzaHDFS (Hadoop Distributed File system) per l'archiviazione e può eseguire applicazioni Spark su YARN anche.

PySpark - Panoramica

Apache Spark è scritto in formato Scala programming language. Per supportare Python con Spark, la comunità di Apache Spark ha rilasciato uno strumento, PySpark. Usando PySpark, puoi lavorare conRDDsanche in linguaggio di programmazione Python. È a causa di una libreria chiamataPy4j che sono in grado di raggiungere questo obiettivo.

Offerte PySpark PySpark Shellche collega l'API Python al core Spark e inizializza il contesto Spark. La maggior parte dei data scientist e degli esperti di analisi oggi utilizza Python per via del suo ricco set di librerie. L'integrazione di Python con Spark è un vantaggio per loro.