Big Data Analytics - Metodologia
In termini di metodologia, l'analisi dei big data differisce in modo significativo dal tradizionale approccio statistico della progettazione sperimentale. L'analisi inizia con i dati. Normalmente modelliamo i dati in modo da spiegare una risposta. Gli obiettivi di questo approccio sono prevedere il comportamento della risposta o comprendere come le variabili di input si relazionano a una risposta. Normalmente nei disegni sperimentali statistici, viene sviluppato un esperimento e come risultato vengono recuperati i dati. Ciò consente di generare dati in un modo che può essere utilizzato da un modello statistico, in cui valgono alcune ipotesi come indipendenza, normalità e randomizzazione.
Nell'analisi dei big data, ci vengono presentati i dati. Non possiamo progettare un esperimento che soddisfi il nostro modello statistico preferito. Nelle applicazioni di analisi su larga scala, è necessaria una grande quantità di lavoro (normalmente l'80% dello sforzo) solo per pulire i dati, in modo che possano essere utilizzati da un modello di apprendimento automatico.
Non abbiamo una metodologia unica da seguire in applicazioni reali su larga scala. Normalmente una volta definito il problema aziendale, è necessaria una fase di ricerca per progettare la metodologia da utilizzare. Tuttavia, le linee guida generali sono importanti per essere menzionate e si applicano a quasi tutti i problemi.
Uno dei compiti più importanti nell'analisi dei big data è statistical modeling, che significa problemi di classificazione o regressione supervisionati e non supervisionati. Una volta che i dati sono stati puliti e preelaborati, disponibili per la modellazione, è necessario prestare attenzione nella valutazione dei diversi modelli con metriche di perdita ragionevoli e quindi, una volta implementato il modello, dovrebbero essere riportati ulteriori valutazioni e risultati. Una trappola comune nella modellazione predittiva è semplicemente implementare il modello e non misurarne mai le prestazioni.