Estrazione di caratteristiche con PySpark

In questo capitolo, apprenderemo l'applicazione delle funzionalità di estrazione con PySpark in Agile Data Science.

Panoramica di Spark

Apache Spark può essere definito come un framework di elaborazione veloce in tempo reale. Esegue calcoli per analizzare i dati in tempo reale. Apache Spark viene introdotto come sistema di elaborazione del flusso in tempo reale e può anche occuparsi dell'elaborazione in batch. Apache Spark supporta query interattive e algoritmi iterativi.

Spark è scritto in “linguaggio di programmazione Scala”.

PySpark può essere considerato come una combinazione di Python con Spark. PySpark offre la shell PySpark, che collega l'API Python al core Spark e inizializza il contesto Spark. La maggior parte dei data scientist utilizza PySpark per il monitoraggio delle funzionalità, come discusso nel capitolo precedente.

In questo esempio, ci concentreremo sulle trasformazioni per creare un set di dati chiamato counts e salvarlo in un particolare file.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

Utilizzando PySpark, un utente può lavorare con RDD nel linguaggio di programmazione Python. La libreria integrata, che copre le basi dei documenti e dei componenti Data Driven, aiuta in questo.