Agile Data Science - Elaborazione dati in Agile
In questo capitolo ci concentreremo sulla differenza tra dati strutturati, semi-strutturati e non strutturati.
Dati strutturati
I dati strutturati riguardano i dati archiviati in formato SQL in tabelle con righe e colonne. Include una chiave relazionale, mappata in campi predefiniti. I dati strutturati vengono utilizzati su scala più ampia.
I dati strutturati rappresentano solo il 5-10 percento di tutti i dati informatici.
Dati semistrutturati
I dati semistrutturati includono dati che non risiedono nel database relazionale. Includono alcune proprietà organizzative che ne semplificano l'analisi. Include lo stesso processo per memorizzarli nel database relazionale. Gli esempi di database semi-strutturato sono file CSV, documenti XML e JSON. I database NoSQL sono considerati semistrutturati.
Dati non strutturati
I dati non strutturati rappresentano l'80% dei dati. Spesso include testo e contenuti multimediali. I migliori esempi di dati non strutturati includono file audio, presentazioni e pagine web. Gli esempi di dati non strutturati generati dalla macchina sono immagini satellitari, dati scientifici, fotografie e dati video, radar e sonar.
La struttura piramidale di cui sopra si concentra specificamente sulla quantità di dati e sul rapporto su cui sono sparsi.
I dati quasi strutturati vengono visualizzati come tipo tra dati non strutturati e semi-strutturati. In questo tutorial, ci concentreremo sui dati semi-strutturati, utili per la metodologia agile e la ricerca scientifica dei dati.
I dati semistrutturati non hanno un modello di dati formale, ma hanno un modello e una struttura apparenti e auto-descrittivi sviluppati dalla loro analisi.