Agile Data Science - SparkML
La libreria di machine learning chiamata anche "SparkML" o "MLLib" è costituita da algoritmi di apprendimento comuni, tra cui classificazione, regressione, clustering e filtraggio collaborativo.
Perché imparare SparkML per Agile?
Spark sta diventando la piattaforma di fatto per la creazione di algoritmi e applicazioni di machine learning. Gli sviluppatori lavorano su Spark per implementare algoritmi della macchina in modo scalabile e conciso nel framework Spark. Impareremo i concetti di Machine learning, le sue utilità e algoritmi con questo framework. Agile sceglie sempre un framework, che fornisce risultati brevi e rapidi.
Algoritmi ML
Gli algoritmi ML includono algoritmi di apprendimento comuni come classificazione, regressione, clustering e filtraggio collaborativo.
Caratteristiche
Include l'estrazione, la trasformazione, la riduzione delle dimensioni e la selezione delle caratteristiche.
Condutture
Le pipeline forniscono strumenti per la costruzione, la valutazione e l'ottimizzazione delle pipeline di machine learning.
Algoritmi popolari
Di seguito sono riportati alcuni algoritmi popolari:
Statistiche di base
Regression
Classification
Sistema di raccomandazione
Clustering
Riduzione della dimensionalità
Estrazione delle caratteristiche
Optimization
Sistema di raccomandazione
Un sistema di raccomandazione è una sottoclasse del sistema di filtraggio delle informazioni che cerca la previsione di "valutazione" e "preferenza" che un utente suggerisce a un dato elemento.
Il sistema di raccomandazione include vari sistemi di filtraggio, che vengono utilizzati come segue:
Filtraggio collaborativo
Comprende la creazione di un modello basato sul comportamento passato e su decisioni simili prese da altri utenti. Questo modello di filtro specifico viene utilizzato per prevedere gli elementi che un utente è interessato a prendere.
Filtro basato sui contenuti
Include il filtraggio delle caratteristiche discrete di un articolo per consigliare e aggiungere nuovi articoli con proprietà simili.
Nei capitoli successivi, ci concentreremo sull'uso del sistema di raccomandazione per risolvere un problema specifico e migliorare le prestazioni di previsione dal punto di vista della metodologia agile.