Apache Presto - Panoramica

L'analisi dei dati è il processo di analisi dei dati grezzi per raccogliere informazioni rilevanti per un migliore processo decisionale. Viene utilizzato principalmente in molte organizzazioni per prendere decisioni aziendali. Bene, l'analisi dei big data coinvolge una grande quantità di dati e questo processo è piuttosto complesso, quindi le aziende utilizzano strategie diverse.

Ad esempio, Facebook è una delle principali società di data warehouse al mondo e guidata dai dati. I dati del warehouse di Facebook vengono archiviati in Hadoop per calcoli su larga scala. Successivamente, quando i dati del magazzino sono cresciuti fino a raggiungere i petabyte, hanno deciso di sviluppare un nuovo sistema con bassa latenza. Nell'anno 2012, i membri del team di Facebook hanno progettato“Presto” per analisi interattive delle query che funzionerebbero rapidamente anche con petabyte di dati.

Cos'è Apache Presto?

Apache Presto è un motore di esecuzione di query parallele distribuito, ottimizzato per bassa latenza e analisi interattiva delle query. Presto esegue facilmente le query e si adatta senza tempi di inattività anche da gigabyte a petabyte.

Una singola query Presto può elaborare i dati da più origini come HDFS, MySQL, Cassandra, Hive e molte altre origini dati. Presto è costruito in Java e facile da integrare con altri componenti dell'infrastruttura dati. Presto è potente e aziende leader come Airbnb, DropBox, Groupon, Netflix lo stanno adottando.

Presto - Caratteristiche

Presto contiene le seguenti funzionalità:

Architettura semplice ed estensibile.
Connettori innestabili: Presto supporta connettori innestabili per fornire metadati e dati per le query.
Esecuzioni pipeline: evita il sovraccarico di latenza I / O non necessario.
Funzioni definite dall'utente: gli analisti possono creare funzioni personalizzate definite dall'utente per migrare facilmente.
Elaborazione colonnare vettorializzata.

Presto - Vantaggi

Ecco un elenco dei vantaggi offerti da Apache Presto:

Operazioni SQL specializzate
Facile da installare ed eseguire il debug
Astrazione di archiviazione semplice
Ridimensiona rapidamente i dati petabyte con bassa latenza

Presto - Applicazioni

Presto supporta la maggior parte delle migliori applicazioni industriali odierne. Diamo un'occhiata ad alcune delle applicazioni più importanti.

Facebook- Facebook ha creato Presto per le esigenze di analisi dei dati. Presto scala facilmente grandi velocità di dati.
Teradata- Teradata fornisce soluzioni end-to-end per l'analisi dei Big Data e il data warehousing. Il contributo di Teradata a Presto rende più facile per più aziende consentire tutte le esigenze analitiche.
Airbnb- Presto è parte integrante dell'infrastruttura dati di Airbnb. Ebbene, centinaia di dipendenti eseguono query ogni giorno con la tecnologia.

Perché Presto?

Presto supporta ANSI SQL standard che lo ha reso molto semplice per gli analisti di dati e gli sviluppatori. Sebbene sia costruito in Java, evita i problemi tipici del codice Java relativi all'allocazione della memoria e alla raccolta dei rifiuti. Presto ha un'architettura del connettore compatibile con Hadoop. Consente di collegare facilmente i file system.

Presto viene eseguito su più distribuzioni Hadoop. Inoltre, Presto può connettersi da una piattaforma Hadoop per interrogare Cassandra, database relazionali o altri archivi dati. Questa capacità analitica multipiattaforma consente agli utenti Presto di estrarre il massimo valore aziendale da gigabyte a petabyte di dati.