Test ETL - Completezza dei dati

Il controllo della completezza dei dati viene eseguito per verificare che i dati nel sistema di destinazione siano conformi alle aspettative dopo il caricamento.

I test comuni che possono essere eseguiti per questo sono i seguenti:

  • Controllo delle funzioni aggregate (sum, max, min, count),

  • Verifica e convalida dei conteggi e dei dati effettivi tra l'origine e la destinazione per le colonne senza trasformazioni o con trasformazioni semplici.

Conteggio convalida

Confronta il conteggio del numero di record nelle tabelle di origine e di destinazione. Può essere fatto scrivendo le seguenti domande:

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Convalida del profilo dati

Implica il controllo delle funzioni aggregate come count, sum e max nelle tabelle di origine e di destinazione (fact o dimensione).

Convalida del profilo dati della colonna

Si tratta di confrontare i valori distinti e il conteggio delle righe per ogni valore distinto.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Convalida dati duplicati

Implica la convalida della chiave primaria e della chiave univoca in una colonna o in una combinazione di colonne che dovrebbero essere univoche secondo i requisiti aziendali. È possibile utilizzare la seguente query per eseguire la convalida dei dati duplicati:

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;