Spark SQL - Origini dati

Un'interfaccia DataFrame consente a diverse DataSource di lavorare su Spark SQL. È un tavolo temporaneo e può essere utilizzato come un normale RDD. La registrazione di un DataFrame come tabella consente di eseguire query SQL sui suoi dati.

In questo capitolo, descriveremo i metodi generali per caricare e salvare i dati utilizzando diverse origini dati Spark. Successivamente, discuteremo in dettaglio le opzioni specifiche disponibili per le origini dati integrate.

Esistono diversi tipi di origini dati disponibili in SparkSQL, alcune delle quali sono elencate di seguito:

Sr. No Origine dei dati
1 Set di dati JSON

Spark SQL può acquisire automaticamente lo schema di un set di dati JSON e caricarlo come DataFrame.

2 Tabelle dell'alveare

Hive viene fornito in bundle con la libreria Spark come HiveContext, che eredita da SQLContext.

3 File per parquet

Il parquet è un formato colonnare, supportato da molti sistemi di elaborazione dati.