Data Warehousing - Data Marting

Perché abbiamo bisogno di un data mart?

Di seguito sono elencati i motivi per creare un data mart:

  • Per partizionare i dati al fine di imporre access control strategies.

  • Per velocizzare le query riducendo il volume di dati da scansionare.

  • Per segmentare i dati in diverse piattaforme hardware.

  • Per strutturare i dati in una forma adatta per uno strumento di accesso utente.

Note- Non eseguire il data mart per nessun altro motivo poiché il costo operativo del data marting potrebbe essere molto elevato. Prima del data marting, assicurati che la strategia di data marting sia appropriata per la tua particolare soluzione.

Data marting conveniente

Seguire i passaggi indicati di seguito per rendere il data marting conveniente -

  • Identificare le divisioni funzionali
  • Identificare i requisiti dello strumento di accesso utente
  • Identifica i problemi di controllo degli accessi

Identificare le divisioni funzionali

In questa fase, determiniamo se l'organizzazione ha suddivisioni funzionali naturali. Cerchiamo suddivisioni dipartimentali e determiniamo se il modo in cui i reparti utilizzano le informazioni tende a essere isolato dal resto dell'organizzazione. Facciamo un esempio.

Considera un'organizzazione di vendita al dettaglio, in cui ogni commerciante è responsabile della massimizzazione delle vendite di un gruppo di prodotti. Per questo, le seguenti sono le informazioni preziose:

  • transazione di vendita su base giornaliera
  • previsioni di vendita su base settimanale
  • posizione azionaria su base giornaliera
  • movimenti di magazzino su base giornaliera

Poiché il commerciante non è interessato ai prodotti con cui non ha a che fare, il data marting è un sottoinsieme dei dati che trattano il gruppo di prodotti di interesse. Il diagramma seguente mostra il data marting per diversi utenti.

Di seguito sono riportati i problemi da prendere in considerazione durante la determinazione della divisione funzionale:

  • La struttura del dipartimento potrebbe cambiare.

  • I prodotti potrebbero passare da un reparto all'altro.

  • Il commerciante potrebbe interrogare l'andamento delle vendite di altri prodotti per analizzare cosa sta succedendo alle vendite.

Note - Dobbiamo determinare i vantaggi aziendali e la fattibilità tecnica dell'utilizzo di un data mart.

Identificare i requisiti dello strumento di accesso utente

Abbiamo bisogno di data mart per supportare user access toolsche richiedono strutture dati interne. I dati in tali strutture sono fuori dal controllo del data warehouse ma devono essere popolati e aggiornati regolarmente.

Ci sono alcuni strumenti che popolano direttamente dal sistema di origine, ma altri no. Pertanto, per il futuro è necessario identificare ulteriori requisiti al di fuori dell'ambito dello strumento.

Note - Al fine di garantire la coerenza dei dati in tutti gli strumenti di accesso, i dati non devono essere popolati direttamente dal data warehouse, ma ogni strumento deve avere il proprio data mart.

Identifica i problemi di controllo degli accessi

Dovrebbero esserci regole sulla privacy per garantire che i dati siano accessibili solo da utenti autorizzati. Ad esempio, un data warehouse per un istituto di credito al dettaglio garantisce che tutti i conti appartengano alla stessa persona giuridica. Le leggi sulla privacy possono costringerti a impedire totalmente l'accesso a informazioni che non sono di proprietà della banca specifica.

I data mart ci consentono di costruire un muro completo separando fisicamente i segmenti di dati all'interno del data warehouse. Per evitare possibili problemi di privacy, i dati dettagliati possono essere rimossi dal data warehouse. Possiamo creare data mart per ogni persona giuridica e caricarli tramite data warehouse, con dati dettagliati sull'account.

Progettazione di data mart

I data mart dovrebbero essere progettati come una versione più piccola dello schema starflake all'interno del data warehouse e dovrebbero corrispondere alla progettazione del database del data warehouse. Aiuta a mantenere il controllo sulle istanze del database.

I riepiloghi sono data marted nello stesso modo in cui sarebbero stati progettati all'interno del data warehouse. Le tabelle di riepilogo aiutano a utilizzare tutti i dati di dimensione nello schema starflake.

Costo del data marting

Le misure dei costi per il data marting sono le seguenti:

  • Costo hardware e software
  • Accesso alla rete
  • Vincoli della finestra temporale

Costo hardware e software

Sebbene i data mart siano creati sullo stesso hardware, richiedono hardware e software aggiuntivi. Per gestire le query degli utenti, richiede potenza di elaborazione e spazio su disco aggiuntivi. Se i dati dettagliati e il data mart esistono all'interno del data warehouse, dovremmo sostenere costi aggiuntivi per archiviare e gestire i dati replicati.

Note - Il data marting è più costoso delle aggregazioni, quindi dovrebbe essere utilizzato come strategia aggiuntiva e non come strategia alternativa.

Accesso alla rete

Un data mart potrebbe trovarsi in una posizione diversa dal data warehouse, quindi dobbiamo assicurarci che la LAN o WAN abbia la capacità di gestire i volumi di dati trasferiti all'interno del data mart load process.

Vincoli della finestra temporale

La misura in cui un processo di caricamento del data mart occuperà la finestra di tempo disponibile dipende dalla complessità delle trasformazioni e dai volumi di dati inviati. La determinazione del numero di data mart possibili dipende da:

  • Capacità di rete.
  • Finestra temporale disponibile
  • Volume di dati trasferiti
  • Meccanismi utilizzati per inserire dati in un data mart