Big Data Analytics - Ciclo di vita dei dati

Ciclo di vita del data mining tradizionale

Al fine di fornire una struttura per organizzare il lavoro necessario a un'organizzazione e fornire intuizioni chiare dai Big Data, è utile pensarlo come un ciclo con diverse fasi. Non è affatto lineare, il che significa che tutte le fasi sono correlate tra loro. Questo ciclo presenta somiglianze superficiali con il ciclo di data mining più tradizionale descritto inCRISP methodology.

Metodologia CRISP-DM

Il CRISP-DM methodologyche sta per Cross Industry Standard Process for Data Mining, è un ciclo che descrive gli approcci comunemente usati che gli esperti di data mining utilizzano per affrontare i problemi nel data mining BI tradizionale. Viene ancora utilizzato nei tradizionali team di data mining BI.

Dai un'occhiata alla seguente illustrazione. Mostra le fasi principali del ciclo descritte dalla metodologia CRISP-DM e come sono correlate.

CRISP-DM è stato concepito nel 1996 e l'anno successivo ha preso il via come progetto dell'Unione Europea nell'ambito dell'iniziativa di finanziamento ESPRIT. Il progetto è stato guidato da cinque società: SPSS, Teradata, Daimler AG, NCR Corporation e OHRA (una compagnia di assicurazioni). Il progetto è stato finalmente incorporato in SPSS. La metodologia è estremamente dettagliata orientata a come deve essere specificato un progetto di data mining.

Impariamo ora un po 'di più su ciascuna delle fasi coinvolte nel ciclo di vita di CRISP-DM -

  • Business Understanding- Questa fase iniziale si concentra sulla comprensione degli obiettivi e dei requisiti del progetto da una prospettiva aziendale e quindi sulla conversione di questa conoscenza in una definizione del problema di data mining. Un piano preliminare è progettato per raggiungere gli obiettivi. È possibile utilizzare un modello decisionale, in particolare uno costruito utilizzando il modello decisionale e lo standard di notazione.

  • Data Understanding - La fase di comprensione dei dati inizia con una raccolta dati iniziale e procede con le attività al fine di acquisire familiarità con i dati, identificare problemi di qualità dei dati, scoprire prime intuizioni nei dati o rilevare sottoinsiemi interessanti per formare ipotesi per informazioni nascoste.

  • Data Preparation- La fase di preparazione dei dati copre tutte le attività per costruire il set di dati finale (dati che verranno inseriti negli strumenti di modellazione) dai dati grezzi iniziali. È probabile che le attività di preparazione dei dati vengano eseguite più volte e non in un ordine prestabilito. Le attività includono la selezione di tabelle, record e attributi, nonché la trasformazione e la pulizia dei dati per gli strumenti di modellazione.

  • Modeling- In questa fase vengono selezionate e applicate varie tecniche di modellazione e i loro parametri vengono calibrati su valori ottimali. In genere, esistono diverse tecniche per lo stesso tipo di problema di data mining. Alcune tecniche hanno requisiti specifici sulla forma dei dati. Pertanto, è spesso necessario tornare alla fase di preparazione dei dati.

  • Evaluation- In questa fase del progetto, hai costruito un modello (o modelli) che sembra avere un'alta qualità, dal punto di vista dell'analisi dei dati. Prima di procedere alla distribuzione finale del modello, è importante valutare a fondo il modello e rivedere i passaggi eseguiti per costruire il modello, per essere certi che raggiunga correttamente gli obiettivi di business.

    Un obiettivo chiave è determinare se c'è qualche importante questione aziendale che non è stata sufficientemente considerata. Al termine di questa fase, dovrebbe essere presa una decisione sull'utilizzo dei risultati del data mining.

  • Deployment- La creazione del modello generalmente non è la fine del progetto. Anche se lo scopo del modello è aumentare la conoscenza dei dati, la conoscenza acquisita dovrà essere organizzata e presentata in un modo che sia utile al cliente.

    A seconda dei requisiti, la fase di implementazione può essere semplice come la generazione di un report o complessa come l'implementazione di un punteggio dati ripetibile (ad es. Allocazione di segmenti) o processo di data mining.

In molti casi, sarà il cliente, non l'analista dei dati, a eseguire le fasi di distribuzione. Anche se l'analista implementa il modello, è importante che il cliente comprenda in anticipo le azioni che dovranno essere eseguite per poter utilizzare effettivamente i modelli creati.

Metodologia SEMMA

SEMMA è un'altra metodologia sviluppata da SAS per la modellazione del data mining. Sta perSampio, Explore, Modificare, Model e Asses. Ecco una breve descrizione delle sue fasi:

  • Sample- Il processo inizia con il campionamento dei dati, ad esempio selezionando il set di dati per la modellazione. Il set di dati dovrebbe essere abbastanza grande da contenere informazioni sufficienti per il recupero, ma abbastanza piccolo da essere utilizzato in modo efficiente. Questa fase si occupa anche del partizionamento dei dati.

  • Explore - Questa fase copre la comprensione dei dati scoprendo relazioni anticipate e impreviste tra le variabili, e anche anomalie, con l'aiuto della visualizzazione dei dati.

  • Modify - La fase di modifica contiene metodi per selezionare, creare e trasformare variabili in preparazione per la modellazione dei dati.

  • Model - Nella fase Modello, l'attenzione è sull'applicazione di varie tecniche di modellazione (data mining) sulle variabili preparate al fine di creare modelli che possibilmente forniscano il risultato desiderato.

  • Assess - La valutazione dei risultati della modellazione mostra l'affidabilità e l'utilità dei modelli creati.

La principale differenza tra CRISM – DM e SEMMA è che SEMMA si concentra sull'aspetto della modellazione, mentre CRISP-DM dà maggiore importanza alle fasi del ciclo prima della modellazione come la comprensione del problema aziendale da risolvere, la comprensione e la preelaborazione dei dati da utilizzato come input, ad esempio, algoritmi di apprendimento automatico.

Ciclo di vita dei Big Data

Nel contesto odierno dei big data, gli approcci precedenti sono incompleti o non ottimali. Ad esempio, la metodologia SEMMA ignora completamente la raccolta dei dati e la preelaborazione di diverse fonti di dati. Queste fasi normalmente costituiscono la maggior parte del lavoro in un progetto Big Data di successo.

Un ciclo di analisi dei big data può essere descritto nella fase seguente:

  • Definizione del problema aziendale
  • Research
  • Valutazione delle risorse umane
  • Acquisizione dei dati
  • Munging dei dati
  • Archivio dati
  • Analisi esplorativa dei dati
  • Preparazione dei dati per modellazione e valutazione
  • Modeling
  • Implementation

In questa sezione, faremo luce su ciascuna di queste fasi del ciclo di vita dei big data.

Definizione del problema aziendale

Questo è un punto comune nel ciclo di vita della BI tradizionale e dell'analisi dei big data. Normalmente è una fase non banale di un progetto Big Data per definire il problema e valutare correttamente quanto potenziale guadagno può avere per un'organizzazione. Sembra ovvio menzionarlo, ma è necessario valutare quali sono i guadagni e i costi attesi del progetto.

Ricerca

Analizza cosa hanno fatto altre aziende nella stessa situazione. Ciò comporta la ricerca di soluzioni ragionevoli per la tua azienda, anche se implica l'adattamento di altre soluzioni alle risorse e ai requisiti della tua azienda. In questa fase, dovrebbe essere definita una metodologia per le fasi future.

Valutazione delle risorse umane

Una volta definito il problema, è ragionevole continuare ad analizzare se lo staff attuale è in grado di completare con successo il progetto. I team BI tradizionali potrebbero non essere in grado di fornire una soluzione ottimale a tutte le fasi, quindi dovrebbe essere considerato prima di iniziare il progetto se è necessario esternalizzare una parte del progetto o assumere più persone.

Acquisizione dei dati

Questa sezione è fondamentale in un ciclo di vita dei big data; definisce il tipo di profili necessari per fornire il prodotto dati risultante. La raccolta dei dati è una fase non banale del processo; normalmente comporta la raccolta di dati non strutturati da diverse fonti. Per fare un esempio, potrebbe comportare la scrittura di un crawler per recuperare le recensioni da un sito web. Ciò comporta la gestione del testo, magari in lingue diverse che normalmente richiedono una notevole quantità di tempo per essere completato.

Munging dei dati

Una volta che i dati vengono recuperati, ad esempio, dal web, devono essere archiviati in un formato di facile utilizzo. Per continuare con gli esempi di recensioni, supponiamo che i dati vengano recuperati da siti diversi in cui ognuno ha una visualizzazione diversa dei dati.

Supponiamo che una fonte di dati fornisca recensioni in termini di valutazione in stelle, quindi è possibile leggere questo come una mappatura per la variabile di risposta y ∈ {1, 2, 3, 4, 5}. Un'altra fonte di dati fornisce revisioni utilizzando il sistema a due frecce, una per il voto positivo e l'altra per il voto negativo. Ciò implicherebbe una variabile di risposta del moduloy ∈ {positive, negative}.

Per combinare entrambe le fonti di dati, è necessario prendere una decisione per rendere equivalenti queste due rappresentazioni di risposta. Ciò può comportare la conversione della prima rappresentazione della risposta dell'origine dati nella seconda forma, considerando una stella negativa e cinque stelle positive. Questo processo richiede spesso una grande allocazione di tempo per essere consegnato con una buona qualità.

Archivio dati

Una volta elaborati i dati, a volte devono essere archiviati in un database. Le tecnologie dei big data offrono molte alternative su questo punto. L'alternativa più comune è l'utilizzo del file system Hadoop per l'archiviazione che fornisce agli utenti una versione limitata di SQL, nota come HIVE Query Language. Ciò consente di eseguire la maggior parte delle attività di analisi in modi simili a quelli dei tradizionali data warehouse BI, dal punto di vista dell'utente. Altre opzioni di archiviazione da considerare sono MongoDB, Redis e SPARK.

Questa fase del ciclo è correlata alla conoscenza delle risorse umane in termini di capacità di implementare diverse architetture. Le versioni modificate dei data warehouse tradizionali vengono ancora utilizzate in applicazioni su larga scala. Ad esempio, teradata e IBM offrono database SQL in grado di gestire terabyte di dati; soluzioni open source come postgreSQL e MySQL vengono ancora utilizzate per applicazioni su larga scala.

Anche se ci sono differenze nel modo in cui i diversi archivi funzionano in background, dal lato client, la maggior parte delle soluzioni fornisce un'API SQL. Quindi avere una buona conoscenza di SQL è ancora un'abilità chiave da avere per l'analisi dei big data.

Questa fase a priori sembra essere l'argomento più importante, in pratica, questo non è vero. Non è nemmeno una tappa essenziale. È possibile implementare una soluzione per big data che funzionerebbe con dati in tempo reale, quindi in questo caso, dobbiamo solo raccogliere dati per sviluppare il modello e quindi implementarlo in tempo reale. Quindi non sarebbe affatto necessario archiviare formalmente i dati.

Analisi esplorativa dei dati

Una volta che i dati sono stati puliti e archiviati in modo da poter recuperare le informazioni, la fase di esplorazione dei dati è obbligatoria. L'obiettivo di questa fase è comprendere i dati, normalmente ciò viene fatto con tecniche statistiche e anche tracciando i dati. Questa è una buona fase per valutare se la definizione del problema ha senso o è fattibile.

Preparazione dei dati per modellazione e valutazione

Questa fase prevede il rimodellamento dei dati puliti recuperati in precedenza e l'utilizzo della preelaborazione statistica per l'assegnazione dei valori mancanti, il rilevamento dei valori anomali, la normalizzazione, l'estrazione delle caratteristiche e la selezione delle caratteristiche.

Modellazione

La fase precedente avrebbe dovuto produrre diversi set di dati per l'addestramento e il test, ad esempio un modello predittivo. Questa fase prevede la prova di diversi modelli e l'impazienza di risolvere il problema aziendale in questione. In pratica, è normalmente auspicabile che il modello fornisca alcune informazioni sull'attività. Infine, viene selezionato il miglior modello o combinazione di modelli valutandone le prestazioni su un dataset lasciato fuori.

Implementazione

In questa fase, il prodotto dati sviluppato viene implementato nella pipeline dati dell'azienda. Ciò implica l'impostazione di uno schema di convalida mentre il prodotto dati è in funzione, al fine di monitorarne le prestazioni. Ad esempio, nel caso di implementazione di un modello predittivo, questa fase comporterebbe l'applicazione del modello a nuovi dati e una volta che la risposta è disponibile, valutare il modello.