Analisi dei dati di misurazione del software

Dopo aver raccolto i dati rilevanti, dobbiamo analizzarli in modo appropriato. Ci sono tre elementi principali da considerare per la scelta della tecnica di analisi.

  • La natura dei dati
  • Lo scopo dell'esperimento
  • Considerazioni sul design

La natura dei dati

Per analizzare i dati, dobbiamo anche guardare alla popolazione più ampia rappresentata dai dati e alla distribuzione di tali dati.

Campionamento, popolazione e distribuzione dei dati

Il campionamento è il processo di selezione di un set di dati da un'ampia popolazione. Le statistiche campione descrivono e riassumono le misure ottenute da un gruppo di soggetti sperimentali.

I parametri della popolazione rappresentano i valori che si otterrebbero misurando tutti i soggetti possibili.

La popolazione o il campione possono essere descritti dalle misure della tendenza centrale come media, mediana e modalità e dalle misure di dispersione come la varianza e la deviazione standard. Molti set di dati sono distribuiti normalmente come mostrato nel grafico seguente.

Come mostrato sopra, i dati saranno distribuiti uniformemente sulla media. quali sono le caratteristiche significative di una distribuzione normale.

Esistono anche altre distribuzioni in cui i dati sono distorti in modo che ci siano più punti dati su un lato della media che sull'altro. Ad esempio: se la maggior parte dei dati è presente sul lato sinistro della media, allora possiamo dire che la distribuzione è inclinata a sinistra.

Lo scopo dell'esperimento

Normalmente, vengono condotti esperimenti:

  • Per confermare una teoria
  • Per esplorare una relazione

Per raggiungere ciascuno di questi, l'obiettivo deve essere espresso formalmente in termini di ipotesi e l'analisi deve affrontare direttamente l'ipotesi.

Per confermare una teoria

L'indagine deve essere progettata per esplorare la verità di una teoria. La teoria di solito afferma che l'uso di un certo metodo, strumento o tecnica ha un effetto particolare sui soggetti, rendendolo migliore in un modo che in un altro.

Ci sono due casi di dati da considerare: normal data e non-normal data.

Se i dati provengono da una distribuzione normale e ci sono due gruppi da confrontare, il test t di Student può essere utilizzato per l'analisi. Se ci sono più di due gruppi da confrontare, è possibile utilizzare un'analisi generale della varianza chiamata F-statistica.

Se i dati non sono normali, è possibile analizzarli utilizzando il test di Kruskal-Wallis classificandoli.

Per esplorare una relazione

Le indagini sono progettate per determinare la relazione tra i punti dati che descrivono una o più variabili.

Esistono tre tecniche per rispondere alle domande su una relazione: box plot, grafici a dispersione e analisi di correlazione.

  • UN box plot può rappresentare il riepilogo dell'intervallo di un insieme di dati.

  • UN scatter plot rappresenta la relazione tra due variabili.

  • Correlation analysis utilizza metodi statistici per confermare se esiste una vera relazione tra due attributi.

    • Per valori normalmente distribuiti, utilizzare Pearson Correlation Coefficient per verificare se le due variabili sono o meno fortemente correlate.

    • Per i dati non normali, classificare i dati e utilizzare il Spearman Rank Correlation Coefficientcome misura di associazione. Un'altra misura per i dati non normali è ilKendall robust correlation coefficient, che indaga la relazione tra coppie di punti dati e può identificare una correlazione parziale.

Se la classifica contiene un numero elevato di valori pari, a chi-squared testsu una tabella di contingenza può essere utilizzato per testare l'associazione tra le variabili. Allo stesso modo,linear regression può essere utilizzato per generare un'equazione per descrivere la relazione tra le variabili.

Per più di due variabili, multivariate regression può essere utilizzata.

considerazioni sul design

Il disegno dell'indagine deve essere considerato nella scelta delle tecniche di analisi. Allo stesso tempo, la complessità dell'analisi può influenzare il design scelto. Più gruppi utilizzano le statistiche F anziché il test T di Student con due gruppi.

Per progetti fattoriali complessi con più di due fattori, è necessario un test di associazione e significato più sofisticato.

Le tecniche statistiche possono essere utilizzate per tenere conto dell'effetto di un insieme di variabili sugli altri o per compensare i tempi o gli effetti dell'apprendimento.