Agile Data Science - Ruolo delle previsioni

In questo capitolo, guadagneremo sul ruolo delle previsioni nella scienza dei dati agile. I report interattivi espongono diversi aspetti dei dati. Le previsioni costituiscono il quarto livello dello sprint agile.

Quando si effettuano previsioni, ci riferiamo sempre ai dati passati e li usiamo come inferenze per iterazioni future. In questo processo completo, trasferiamo i dati dall'elaborazione batch dei dati storici ai dati in tempo reale sul futuro.

Il ruolo delle previsioni include quanto segue:

  • Le previsioni aiutano nella previsione. Alcune previsioni si basano su inferenze statistiche. Alcune delle previsioni si basano su opinioni di esperti.

  • L'inferenza statistica è coinvolta con previsioni di tutti i tipi.

  • A volte le previsioni sono accurate, mentre a volte le previsioni sono imprecise.

Analisi predittiva

L'analisi predittiva include una varietà di tecniche statistiche dalla modellazione predittiva, all'apprendimento automatico e al data mining che analizzano fatti attuali e storici per fare previsioni su eventi futuri e sconosciuti.

L'analisi predittiva richiede dati di addestramento. I dati addestrati includono funzionalità indipendenti e dipendenti. Le caratteristiche dipendenti sono i valori che un utente sta cercando di prevedere. Le caratteristiche indipendenti sono caratteristiche che descrivono le cose che vogliamo prevedere in base alle caratteristiche dipendenti.

Lo studio delle caratteristiche è chiamato ingegneria delle caratteristiche; questo è fondamentale per fare previsioni. La visualizzazione dei dati e l'analisi esplorativa dei dati sono parti dell'ingegneria delle funzionalità; questi costituiscono il nucleo diAgile data science.

Fare previsioni

Esistono due modi per fare previsioni nella scienza dei dati agile:

  • Regression

  • Classification

La creazione di una regressione o di una classificazione dipende completamente dai requisiti aziendali e dalla sua analisi. La previsione della variabile continua porta al modello di regressione e la previsione delle variabili categoriali porta al modello di classificazione.

Regressione

La regressione considera gli esempi che comprendono le caratteristiche e, quindi, produce un output numerico.

Classificazione

La classificazione prende l'input e produce una classificazione categoriale.

Note - Il set di dati di esempio che definisce l'input per la previsione statistica e che consente alla macchina di apprendere è chiamato "dati di addestramento".