H2O - Introduzione

Ti è mai stato chiesto di sviluppare un modello di Machine Learning su un enorme database? In genere, il cliente ti fornirà il database e ti chiederà di fare alcune previsioni come chi saranno i potenziali acquirenti; se può esserci un rilevamento precoce di casi fraudolenti, ecc. Per rispondere a queste domande, il tuo compito sarebbe sviluppare un algoritmo di Machine Learning che fornisca una risposta alla domanda del cliente. Sviluppare un algoritmo di Machine Learning da zero non è un compito facile e perché dovresti farlo quando sul mercato sono disponibili diverse librerie di Machine Learning pronte per l'uso.

Oggigiorno, preferiresti usare queste librerie, applicare un algoritmo ben collaudato da queste librerie e guardarne le prestazioni. Se le prestazioni non fossero entro limiti accettabili, proveresti a mettere a punto l'algoritmo corrente o provarne uno completamente diverso.

Allo stesso modo, puoi provare più algoritmi sullo stesso set di dati e poi scegliere quello migliore che soddisfi i requisiti del cliente. È qui che H2O viene in tuo soccorso. È un framework di Machine Learning open source con implementazioni completamente testate di diversi algoritmi ML ampiamente accettati. Devi solo prendere l'algoritmo dal suo enorme repository e applicarlo al tuo set di dati. Contiene gli algoritmi statistici e ML più utilizzati.

Per citarne alcuni qui include macchine con boosting gradiente (GBM), modello lineare generalizzato (GLM), apprendimento profondo e molti altri. Non solo supporta anche la funzionalità AutoML che classificherà le prestazioni di diversi algoritmi sul set di dati, riducendo così i tuoi sforzi per trovare il modello con le migliori prestazioni. H2O è utilizzato in tutto il mondo da più di 18000 organizzazioni e si interfaccia bene con R e Python per facilitare lo sviluppo. È una piattaforma in-memory che offre prestazioni eccezionali.

In questo tutorial, imparerai prima a installare H2O sulla tua macchina con entrambe le opzioni Python e R. Capiremo come usarlo nella riga di comando in modo da comprenderne il funzionamento a livello di riga. Se sei un amante di Python, puoi usare Jupyter o qualsiasi altro IDE di tua scelta per sviluppare applicazioni H2O. Se preferisci R, puoi usare RStudio per lo sviluppo.

In questo tutorial, considereremo un esempio per capire come lavorare con H2O. Impareremo anche come modificare l'algoritmo nel codice del programma e confrontare le sue prestazioni con quello precedente. H2O fornisce anche uno strumento basato sul web per testare i diversi algoritmi sul tuo set di dati. Questo si chiama Flow.

Il tutorial ti introdurrà all'uso di Flow. Parallelamente, discuteremo dell'uso di AutoML che identificherà l'algoritmo con le migliori prestazioni nel tuo set di dati. Non sei entusiasta di imparare H2O? Continua a leggere!