Analisi dei dati - Processo
L'analisi dei dati è un processo di raccolta, trasformazione, pulizia e modellazione dei dati con l'obiettivo di scoprire le informazioni richieste. I risultati così ottenuti vengono comunicati, suggerendo conclusioni e supportando il processo decisionale. La visualizzazione dei dati a volte viene utilizzata per rappresentare i dati per la facilità di scoprire i modelli utili nei dati. I termini Data Modeling e Data Analysis hanno lo stesso significato.
Il processo di analisi dei dati consiste nelle seguenti fasi di natura iterativa:
- Specifica dei requisiti dei dati
- Raccolta dati
- Elaborazione dati
- Pulizia dei dati
- Analisi dei dati
- Communication
Specifica dei requisiti dei dati
I dati richiesti per l'analisi si basano su una domanda o un esperimento. In base alle esigenze di chi dirige l'analisi, vengono individuati i dati necessari come input all'analisi (es. Popolazione di persone). È possibile specificare e ottenere variabili specifiche relative a una popolazione (ad esempio, età e reddito). I dati possono essere numerici o categoriali.
Raccolta dati
La raccolta dei dati è il processo di raccolta di informazioni su variabili mirate identificate come requisiti di dati. L'accento è posto sulla garanzia di una raccolta di dati accurata e onesta. La raccolta dei dati garantisce che i dati raccolti siano accurati in modo tale che le relative decisioni siano valide. La raccolta dei dati fornisce sia una base da misurare che un obiettivo da migliorare.
I dati vengono raccolti da varie fonti che vanno dai database organizzativi alle informazioni nelle pagine web. I dati così ottenuti, potrebbero non essere strutturati e potrebbero contenere informazioni non pertinenti. Pertanto, i dati raccolti devono essere sottoposti a elaborazione e pulizia dei dati.
Elaborazione dati
I dati raccolti devono essere elaborati o organizzati per l'analisi. Ciò include la strutturazione dei dati come richiesto per gli strumenti di analisi pertinenti. Ad esempio, i dati potrebbero dover essere inseriti in righe e colonne in una tabella all'interno di un foglio di calcolo o di un'applicazione statistica. Potrebbe essere necessario creare un modello di dati.
Pulizia dei dati
I dati elaborati e organizzati possono essere incompleti, contenere duplicati o contenere errori. La pulizia dei dati è il processo di prevenzione e correzione di questi errori. Esistono diversi tipi di pulizia dei dati che dipendono dal tipo di dati. Ad esempio, durante la pulizia dei dati finanziari, alcuni totali potrebbero essere confrontati con numeri pubblicati affidabili o soglie definite. Allo stesso modo, i metodi di dati quantitativi possono essere utilizzati per il rilevamento dei valori anomali che sarebbero successivamente esclusi dall'analisi.
Analisi dei dati
I dati elaborati, organizzati e puliti sarebbero pronti per l'analisi. Sono disponibili varie tecniche di analisi dei dati per comprendere, interpretare e trarre conclusioni in base ai requisiti. La visualizzazione dei dati può anche essere utilizzata per esaminare i dati in formato grafico, per ottenere ulteriori informazioni sui messaggi all'interno dei dati.
I modelli di dati statistici come la correlazione e l'analisi di regressione possono essere utilizzati per identificare le relazioni tra le variabili dei dati. Questi modelli descrittivi dei dati sono utili per semplificare l'analisi e comunicare i risultati.
Il processo potrebbe richiedere ulteriore pulizia dei dati o raccolta dati aggiuntiva, e quindi queste attività sono di natura iterativa.
Comunicazione
I risultati dell'analisi dei dati devono essere riportati nel formato richiesto dagli utenti per supportare le loro decisioni e ulteriori azioni. Il feedback degli utenti potrebbe portare a ulteriori analisi.
Gli analisti dei dati possono scegliere tecniche di visualizzazione dei dati, come tabelle e grafici, che aiutano a comunicare il messaggio in modo chiaro ed efficiente agli utenti. Gli strumenti di analisi forniscono funzionalità per evidenziare le informazioni richieste con codici colore e formattazione in tabelle e grafici.