Indexes - Il sistema OLTP ha solo pochi indici mentre in un sistema OLAP ci sono molti indici per l'ottimizzazione delle prestazioni.

Joins - In un sistema OLTP, un numero elevato di join e dati è normalizzato, tuttavia in un sistema OLAP ci sono meno join e denormalizzati.

Aggregation - In un sistema OLTP i dati non vengono aggregati mentre in un database OLAP vengono utilizzate più aggregazioni.

È presente un'area di gestione temporanea richiesta durante il caricamento ETL. Ci sono vari motivi per cui è richiesta un'area di sosta:

Poiché i sistemi di origine sono disponibili solo per un periodo di tempo specifico per estrarre i dati e questo tempo è inferiore al tempo di caricamento totale dei dati, l'area di gestione temporanea consente di estrarre i dati dal sistema di origine e mantenerli nell'area di gestione temporanea prima che lo slot di tempo sia terminato.

L'area di gestione temporanea è necessaria quando si desidera ottenere dati da più origini dati insieme. Se vuoi unire due o più sistemi insieme. Esempio: non sarà possibile eseguire una query SQL unendo due tabelle da due database fisicamente diversi.

La fascia oraria di estrazione dei dati per i diversi sistemi varia in base al fuso orario e alle ore di funzionamento.

I dati estratti dai sistemi di origine possono essere utilizzati in più sistemi di data warehouse, archivi di dati operativi, ecc.

Durante ETL è possibile eseguire trasformazioni complesse che consentono di eseguire trasformazioni complesse e richiedono un'area aggiuntiva per memorizzare i dati.

SAP BO Data Services è uno strumento ETL utilizzato per l'integrazione dei dati, la qualità dei dati, la profilazione dei dati e l'elaborazione dei dati e consente di integrare, trasformare i dati affidabili in un sistema di data warehouse per il reporting analitico.

BO Data Services è costituito da un'interfaccia di sviluppo UI, repository di metadati, connettività dati al sistema di origine e di destinazione e console di gestione per la pianificazione dei lavori.

Puoi anche dividere l'architettura BODS nei livelli sottostanti:

Livello applicazione Web, livello server database, livello servizio servizi dati.

Il repository viene utilizzato per memorizzare i metadati degli oggetti utilizzati in BO Data Services. Ogni repository deve essere registrato nella Central Management Console CMC ed è collegato a uno o più server dei lavori che sono responsabili dell'esecuzione dei lavori creati dall'utente.

Esistono tre tipi di archivi:

Local Repository -

Viene utilizzato per memorizzare i metadati di tutti gli oggetti creati in Data Services Designer come progetti, lavori, flusso di dati, flusso di lavoro, ecc.

Central Repository -

Viene utilizzato per controllare la gestione delle versioni degli oggetti e viene utilizzato per lo sviluppo multiuso. Repository centrale memorizza tutte le versioni di un oggetto applicazione in modo da consentire il passaggio alle versioni precedenti.

Profiler Repository -

Viene utilizzato per gestire tutti i metadati relativi alle attività del profiler eseguite in SAP BODS Designer. Il repository CMS archivia i metadati di tutte le attività eseguite in CMC sulla piattaforma BI. Information Steward Repository memorizza tutti i metadati delle attività di profilazione e degli oggetti creati in Information Steward.

Reusable Objects -

La maggior parte degli oggetti archiviati nel repository può essere riutilizzata. Quando un oggetto riutilizzabile viene definito e salvato nel repository locale, è possibile riutilizzare l'oggetto creando chiamate alla definizione. Ogni oggetto riutilizzabile ha una sola definizione e tutte le chiamate a quell'oggetto si riferiscono a quella definizione. Ora, se la definizione di un oggetto viene cambiata in un punto, stai cambiando la definizione dell'oggetto in tutti i punti in cui appare quell'oggetto.

Una libreria di oggetti viene utilizzata per contenere la definizione di un oggetto e quando un oggetto viene trascinato dalla libreria, significa che viene creato un nuovo riferimento a un oggetto esistente.

Single Use Objects -

Tutti gli oggetti che sono definiti specificamente per un lavoro o un flusso di dati, sono chiamati oggetti monouso. Trasformazione specifica dell'esempio utilizzata in qualsiasi caricamento di dati.

Datastore vengono utilizzati per impostare la connessione tra un'applicazione e il database. È possibile creare direttamente Datastore o può essere creato con l'aiuto di adattatori. Datastore consente a un'applicazione / software di leggere o scrivere metadati da un'applicazione o database e di scrivere su tale database o applicazione.

Per creare BODS Repository è necessario un database installato. È possibile utilizzare SQL Server, database Oracle, My SQL, SAP HANA, Sybase, ecc. È necessario creare gli utenti di seguito nel database durante l'installazione di BOD e creare repository. Questi utenti devono accedere a diversi server CMS Server, Audit Server. Per creare un nuovo repository, devi accedere a Repository manager.

I lavori in tempo reale "estraggono" i dati dal corpo del messaggio in tempo reale ricevuto e da qualsiasi origine secondaria utilizzata nel lavoro.

Il repository centrale viene utilizzato per controllare la gestione delle versioni degli oggetti e viene utilizzato per lo sviluppo multiuso. Repository centrale memorizza tutte le versioni di un oggetto applicazione in modo da consentire il passaggio alle versioni precedenti.

Console di gestione dei servizi dati

In Data Services, è possibile creare una tabella modello da spostare nel sistema di destinazione con la stessa struttura e tipo di dati della tabella di origine.

DS Management Console → Cronologia esecuzione lavoro

È uno strumento di sviluppo che viene utilizzato per creare oggetti costituiti da mappatura, trasformazione e logica dei dati. È basato su GUI e funziona come designer per Data Services.

È possibile creare vari oggetti utilizzando Data Services Designer come progetto, lavori, flusso di lavoro, flusso di dati, mappatura, trasformazioni, ecc.

Nella libreria degli oggetti in DS Designer

È possibile creare Datastore utilizzando la memoria come tipo di database. Memory Datastore viene utilizzato per migliorare le prestazioni dei flussi di dati nei lavori in tempo reale poiché archivia i dati in memoria per facilitare l'accesso rapido e non richiede di andare all'origine dati originale.

Un datastore di memoria viene utilizzato per memorizzare gli schemi delle tabelle di memoria nel repository. Queste tabelle di memoria ottengono i dati dalle tabelle nel database relazionale o utilizzando file di dati gerarchici come messaggi XML e IDoc.

Le tabelle di memoria rimangono attive finché il lavoro non viene eseguito ei dati nelle tabelle di memoria non possono essere condivisi tra diversi lavori in tempo reale.

Esistono vari fornitori di database che forniscono solo un percorso di comunicazione unidirezionale da un database a un altro database. Questi percorsi sono noti come collegamenti al database. In SQL Server, il server collegato consente il percorso di comunicazione unidirezionale da un database all'altro.

Example -

Si consideri un server di database locale con nome "Prodotto" che memorizza il collegamento al database per accedere alle informazioni sul server di database remoto denominato Cliente. Ora gli utenti che sono connessi al server database remoto Il cliente non può utilizzare lo stesso collegamento per accedere ai dati nel prodotto server database. Gli utenti connessi al "Cliente" devono disporre di un collegamento separato nel dizionario dei dati del server per accedere ai dati nel server del database del prodotto.

Questo percorso di comunicazione tra due database è chiamato collegamento al database e gli archivi dati creati tra queste relazioni di database collegati sono noti come archivi dati collegati.

C'è la possibilità di connettere Datastore a un altro Datastore e importare un collegamento a un database esterno come opzione di Datastore.

Adapter Datastore consente di importare i metadati dell'applicazione nel repository. È inoltre possibile accedere ai metadati dell'applicazione e spostare i dati batch e in tempo reale tra diverse applicazioni e software.

  • Delimited
  • SAP Transport
  • Testo non strutturato
  • Binario non strutturato
  • Larghezza fissa

È possibile utilizzare la cartella di lavoro di Microsoft Excel come origine dati utilizzando i formati di file in Data Services. Il libro di lavoro di Excel dovrebbe essere disponibile sul file system Windows o sul file system Unix.

Il flusso di dati viene utilizzato per estrarre, trasformare e caricare i dati dall'origine al sistema di destinazione. Tutte le trasformazioni, il caricamento e la formattazione avvengono nel flusso di dati.

  • Source
  • Target
  • Transforms
  • Esegui una volta
  • Parallelism
  • Collegamenti al database
  • Cache

I flussi di lavoro vengono utilizzati per determinare il processo per l'esecuzione dei flussi di lavoro. Lo scopo principale del flusso di lavoro è prepararsi all'esecuzione dei flussi di dati e impostare lo stato del sistema una volta completata l'esecuzione del flusso di dati.

  • Flusso di lavoro
  • Flusso di dati
  • Scripts
  • Loops
  • Conditions
  • Prova o cattura i blocchi

C'è una tabella dei fatti che vuoi aggiornare e hai creato un flusso di dati con la trasformazione. Ora se vuoi spostare i dati dal sistema di origine, devi controllare l'ultima modifica per la tabella dei fatti in modo da estrarre solo le righe che sono state aggiunte dopo l'ultimo aggiornamento.

Per ottenere ciò, è necessario creare uno script che determini la data dell'ultimo aggiornamento e quindi passarlo come parametro di input al flusso di dati.

È inoltre necessario verificare se la connessione dati a una particolare tabella dei fatti è attiva o meno. Se non è attivo, è necessario impostare un blocco di cattura che invia automaticamente un'e-mail all'amministratore per notificare questo problema.

È inoltre possibile aggiungere condizionali al flusso di lavoro. Ciò consente di implementare la logica If / Else / Then nei flussi di lavoro.

Le trasformazioni vengono utilizzate per manipolare i set di dati come input e creare uno o più output. Esistono varie trasformazioni che possono essere utilizzate in Data Services.

  • Integrazione dei dati
  • Qualità dei dati
  • Platform
  • Merge
  • Query
  • Elaborazione dei dati di testo
  • Data_Generator
  • Data_Transfer
  • Effective_Date
  • Hierarchy_flattening
  • Table_Comparision, ecc.

Questa è la trasformazione più comune utilizzata in Data Services ed è possibile eseguire le seguenti funzioni:

  • Filtraggio dei dati dalle fonti

  • Unione di dati da più origini

  • Eseguire funzioni e trasformazioni sui dati

  • Mappatura delle colonne dagli schemi di input a quelli di output

  • Assegnazione di chiavi primarie

  • Aggiungere nuove colonne, schemi e funzioni risultanti agli schemi di output

  • Poiché la trasformazione della query è la trasformazione più comunemente utilizzata, viene fornito un collegamento per questa query nella tavolozza degli strumenti.

Ciò consente di estrarre le informazioni specifiche da un grande volume di testo. Puoi cercare fatti ed entità come clienti, prodotti e fatti finanziari specifici di un'organizzazione.

Questa trasformazione controlla anche la relazione tra le entità e consente l'estrazione.

I dati estratti utilizzando l'elaborazione dei dati di testo possono essere utilizzati in Business Intelligence, Reporting, query e analisi.

L'elaborazione dei dati di testo viene utilizzata per trovare informazioni rilevanti da dati di testo non strutturati, tuttavia la pulizia dei dati viene utilizzata per la standardizzazione e la pulizia dei dati strutturati.

È possibile creare processi in tempo reale per elaborare messaggi in tempo reale in Data Services Designer. Come un lavoro batch, il lavoro in tempo reale estrae i dati, li trasforma e li carica.

Ogni lavoro in tempo reale può estrarre dati da un singolo messaggio oppure puoi anche estrarre dati da altre fonti come tabelle o file.

Trasformazioni simili a rami e logica di controllo vengono utilizzate più spesso nei lavori in tempo reale a differenza dei lavori batch in Designer.

I lavori in tempo reale non vengono eseguiti in risposta a una pianificazione oa un trigger interno a differenza dei lavori batch.

Il flusso di dati incorporato è noto come flussi di dati che vengono richiamati da un altro flusso di dati nella progettazione. Il flusso di dati incorporato può contenere più numeri di origini e destinazioni, ma solo un input o un output passa i dati al flusso di dati principale.

One Input - Il flusso di dati incorporato viene aggiunto alla fine del flusso di dati.

One Output - Il flusso di dati incorporato viene aggiunto all'inizio di un flusso di dati.

No input or output - Replicare un flusso di dati esistente.

Le variabili locali nei servizi di dati sono limitate all'oggetto in cui vengono create.

Le variabili globali sono limitate ai lavori in cui vengono create. Utilizzando le variabili globali, è possibile modificare i valori per le variabili globali predefinite in fase di esecuzione.

Le espressioni utilizzate nel flusso di lavoro e nel flusso di dati vengono chiamate parametri.

Tutte le variabili e parametri nel flusso di lavoro e flussi di dati sono visualizzati nella finestra variabili e parametri.

Ripristino automatico: consente di eseguire lavori non riusciti in modalità di ripristino.

Ripristino manuale: consente di rieseguire i lavori senza considerare la ripetizione parziale della volta precedente.

Data Services Designer fornisce una funzionalità di profilazione dei dati per garantire e migliorare la qualità e la struttura dei dati di origine. Data Profiler ti consente di:

Trova anomalie nei dati di origine, convalida e azioni correttive e qualità dei dati di origine.

La struttura e la relazione dei dati di origine per una migliore esecuzione dei lavori, flussi di lavoro e flussi di dati.

Il contenuto del sistema di origine e di destinazione per determinare che il lavoro restituisce il risultato come previsto.

Le prestazioni di un lavoro ETL dipendono dal sistema su cui si utilizza il software Data Services, dal numero di spostamenti, ecc. Esistono vari altri fattori che contribuiscono alle prestazioni in un'attività ETL:

  • Base di dati di origine
  • Sistema operativo di origine
  • Database di destinazione
  • Sistema operativo di destinazione
  • Network
  • Sistema operativo Job Server
  • Database del repository BOD

SAP BO Data Services supporta lo sviluppo multiutente in cui ogni utente può lavorare sull'applicazione nel proprio repository locale. Ogni team utilizza il repository centrale per salvare la copia principale di un'applicazione e tutte le versioni degli oggetti nell'applicazione.

In SAP Data Services, la migrazione del lavoro può essere applicata a diversi livelli: livello applicazione, livello repository, livello aggiornamento.

Per copiare il contenuto di un repository centrale in un altro repository centrale, non è possibile farlo direttamente ed è necessario utilizzare il repository locale.

Il primo è ottenere l'ultima versione di tutti gli oggetti dal repository centrale al repository locale. Attiva il repository centrale in cui desideri copiare i contenuti.

Aggiungi tutti gli oggetti che desideri copiare dal repository locale al repository centrale.

Se si aggiorna la versione di SAP Data Services, è necessario aggiornare la versione di Repository. I punti seguenti dovrebbero essere considerati quando si migra un repository centrale per aggiornare la versione:

Point 1

Effettua il backup del repository centrale di tutte le tabelle e gli oggetti.

Point 2

Per mantenere la versione degli oggetti nei servizi di dati, mantenere un repository centrale per ogni versione. Crea una nuova cronologia centrale con la nuova versione del software Data Services e copia tutti gli oggetti in questo repository.

Point 3

Si consiglia sempre, se si installa una nuova versione di Data Services, di aggiornare il proprio repository centrale a una nuova versione di oggetti.

Point 4

Inoltre, aggiorna il tuo repository locale alla stessa versione poiché una versione diversa del repository centrale e locale potrebbe non funzionare allo stesso tempo.

Point 5

Prima di migrare il repository centrale, archiviare tutti gli oggetti. Poiché non si aggiorna il repository centrale e locale contemporaneamente, è necessario archiviare tutti gli oggetti. Poiché una volta aggiornato il repository centrale alla nuova versione, non sarà possibile archiviare gli oggetti dal repository locale che dispone di una versione precedente di Data Services.

Gli SCD sono dimensioni con dati che cambiano nel tempo.

SCD Tipo 1 Nessuna conservazione della cronologia

Conseguenza naturale della normalizzazione

SCD di tipo 2 Preserva tutta la cronologia e le nuove righe

Sono presenti nuove righe generate per modifiche significative

È necessario utilizzare una chiave univoca

Sono stati generati nuovi campi per memorizzare i dati della cronologia

Devi gestire un campo Effective_Date.

SCD Tipo 3 Conservazione della storia limitata

In questo vengono conservati solo due stati dei dati: attuale e vecchio

No, il formato del file non è un tipo di archivio dati.