Agile Data Science - SparkML

La libreria di machine learning chiamata anche "SparkML" o "MLLib" è costituita da algoritmi di apprendimento comuni, tra cui classificazione, regressione, clustering e filtraggio collaborativo.

Perché imparare SparkML per Agile?

Spark sta diventando la piattaforma di fatto per la creazione di algoritmi e applicazioni di machine learning. Gli sviluppatori lavorano su Spark per implementare algoritmi della macchina in modo scalabile e conciso nel framework Spark. Impareremo i concetti di Machine learning, le sue utilità e algoritmi con questo framework. Agile sceglie sempre un framework, che fornisce risultati brevi e rapidi.

Algoritmi ML

Gli algoritmi ML includono algoritmi di apprendimento comuni come classificazione, regressione, clustering e filtraggio collaborativo.

Caratteristiche

Include l'estrazione, la trasformazione, la riduzione delle dimensioni e la selezione delle caratteristiche.

Condutture

Le pipeline forniscono strumenti per la costruzione, la valutazione e l'ottimizzazione delle pipeline di machine learning.

Algoritmi popolari

Di seguito sono riportati alcuni algoritmi popolari:

  • Statistiche di base

  • Regression

  • Classification

  • Sistema di raccomandazione

  • Clustering

  • Riduzione della dimensionalità

  • Estrazione delle caratteristiche

  • Optimization

Sistema di raccomandazione

Un sistema di raccomandazione è una sottoclasse del sistema di filtraggio delle informazioni che cerca la previsione di "valutazione" e "preferenza" che un utente suggerisce a un dato elemento.

Il sistema di raccomandazione include vari sistemi di filtraggio, che vengono utilizzati come segue:

Filtraggio collaborativo

Comprende la creazione di un modello basato sul comportamento passato e su decisioni simili prese da altri utenti. Questo modello di filtro specifico viene utilizzato per prevedere gli elementi che un utente è interessato a prendere.

Filtro basato sui contenuti

Include il filtraggio delle caratteristiche discrete di un articolo per consigliare e aggiungere nuovi articoli con proprietà simili.

Nei capitoli successivi, ci concentreremo sull'uso del sistema di raccomandazione per risolvere un problema specifico e migliorare le prestazioni di previsione dal punto di vista della metodologia agile.