Domande di intervista a SAP BODS

Qual è la differenza tra OLTP e un data warehouse?

Indexes - Il sistema OLTP ha solo pochi indici mentre in un sistema OLAP ci sono molti indici per l'ottimizzazione delle prestazioni.

Joins - In un sistema OLTP, un numero elevato di join e dati è normalizzato, tuttavia in un sistema OLAP ci sono meno join e denormalizzati.

Aggregation - In un sistema OLTP i dati non vengono aggregati mentre in un database OLAP vengono utilizzate più aggregazioni.

Perché abbiamo bisogno di un'area di staging in un processo ETL?

È presente un'area di gestione temporanea richiesta durante il caricamento ETL. Ci sono vari motivi per cui è richiesta un'area di sosta:

Poiché i sistemi di origine sono disponibili solo per un periodo di tempo specifico per estrarre i dati e questo tempo è inferiore al tempo di caricamento totale dei dati, l'area di gestione temporanea consente di estrarre i dati dal sistema di origine e mantenerli nell'area di gestione temporanea prima che lo slot di tempo sia terminato.

L'area di gestione temporanea è necessaria quando si desidera ottenere dati da più origini dati insieme. Se vuoi unire due o più sistemi insieme. Esempio: non sarà possibile eseguire una query SQL unendo due tabelle da due database fisicamente diversi.

La fascia oraria di estrazione dei dati per i diversi sistemi varia in base al fuso orario e alle ore di funzionamento.

I dati estratti dai sistemi di origine possono essere utilizzati in più sistemi di data warehouse, archivi di dati operativi, ecc.

Durante ETL è possibile eseguire trasformazioni complesse che consentono di eseguire trasformazioni complesse e richiedono un'area aggiuntiva per memorizzare i dati.

Cosa sono i servizi dati SAP?

SAP BO Data Services è uno strumento ETL utilizzato per l'integrazione dei dati, la qualità dei dati, la profilazione dei dati e l'elaborazione dei dati e consente di integrare, trasformare i dati affidabili in un sistema di data warehouse per il reporting analitico.

BO Data Services è costituito da un'interfaccia di sviluppo UI, repository di metadati, connettività dati al sistema di origine e di destinazione e console di gestione per la pianificazione dei lavori.

Spiegare l'architettura di BODS con Job Server, Repository Manager e Management Console?

Puoi anche dividere l'architettura BODS nei livelli sottostanti:

Livello applicazione Web, livello server database, livello servizio servizi dati.

Cos'è un repository in BODS? Quali sono i diversi tipi di repository in BODS?

Il repository viene utilizzato per memorizzare i metadati degli oggetti utilizzati in BO Data Services. Ogni repository deve essere registrato nella Central Management Console CMC ed è collegato a uno o più server dei lavori che sono responsabili dell'esecuzione dei lavori creati dall'utente.

Esistono tre tipi di archivi:

Local Repository -

Viene utilizzato per memorizzare i metadati di tutti gli oggetti creati in Data Services Designer come progetti, lavori, flusso di dati, flusso di lavoro, ecc.

Central Repository -

Viene utilizzato per controllare la gestione delle versioni degli oggetti e viene utilizzato per lo sviluppo multiuso. Repository centrale memorizza tutte le versioni di un oggetto applicazione in modo da consentire il passaggio alle versioni precedenti.

Profiler Repository -

Viene utilizzato per gestire tutti i metadati relativi alle attività del profiler eseguite in SAP BODS Designer. Il repository CMS archivia i metadati di tutte le attività eseguite in CMC sulla piattaforma BI. Information Steward Repository memorizza tutti i metadati delle attività di profilazione e degli oggetti creati in Information Steward.

Cosa sono gli oggetti singoli e riutilizzabili nei servizi dati?

Reusable Objects -

La maggior parte degli oggetti archiviati nel repository può essere riutilizzata. Quando un oggetto riutilizzabile viene definito e salvato nel repository locale, è possibile riutilizzare l'oggetto creando chiamate alla definizione. Ogni oggetto riutilizzabile ha una sola definizione e tutte le chiamate a quell'oggetto si riferiscono a quella definizione. Ora, se la definizione di un oggetto viene cambiata in un punto, stai cambiando la definizione dell'oggetto in tutti i punti in cui appare quell'oggetto.

Una libreria di oggetti viene utilizzata per contenere la definizione di un oggetto e quando un oggetto viene trascinato dalla libreria, significa che viene creato un nuovo riferimento a un oggetto esistente.

Single Use Objects -

Tutti gli oggetti che sono definiti specificamente per un lavoro o un flusso di dati, sono chiamati oggetti monouso. Trasformazione specifica dell'esempio utilizzata in qualsiasi caricamento di dati.

Che cos'è un Data Store in Data Services Designer e quali sono i diversi tipi di Data Store?

Datastore vengono utilizzati per impostare la connessione tra un'applicazione e il database. È possibile creare direttamente Datastore o può essere creato con l'aiuto di adattatori. Datastore consente a un'applicazione / software di leggere o scrivere metadati da un'applicazione o database e di scrivere su tale database o applicazione.

Desideri configurare un nuovo repository in BODS. Come lo crei?

Per creare BODS Repository è necessario un database installato. È possibile utilizzare SQL Server, database Oracle, My SQL, SAP HANA, Sybase, ecc. È necessario creare gli utenti di seguito nel database durante l'installazione di BOD e creare repository. Questi utenti devono accedere a diversi server CMS Server, Audit Server. Per creare un nuovo repository, devi accedere a Repository manager.

Cos'è un lavoro in tempo reale?

I lavori in tempo reale "estraggono" i dati dal corpo del messaggio in tempo reale ricevuto e da qualsiasi origine secondaria utilizzata nel lavoro.

Come gestisci le versioni degli oggetti in BODS?

Il repository centrale viene utilizzato per controllare la gestione delle versioni degli oggetti e viene utilizzato per lo sviluppo multiuso. Repository centrale memorizza tutte le versioni di un oggetto applicazione in modo da consentire il passaggio alle versioni precedenti.

Desideri generare i rapporti sulla qualità nel sistema DS, nella convalida dei dati e nella documentazione. Dove puoi vederlo?

Console di gestione dei servizi dati

Qual è la tabella dei modelli?

In Data Services, è possibile creare una tabella modello da spostare nel sistema di destinazione con la stessa struttura e tipo di dati della tabella di origine.

Come si controlla la cronologia di esecuzione di un lavoro o un flusso di dati?

DS Management Console → Cronologia esecuzione lavoro

Cos'è SAP Data Services Designer? Quali sono le principali funzioni ETL che possono essere eseguite nello strumento Designer?

È uno strumento di sviluppo che viene utilizzato per creare oggetti costituiti da mappatura, trasformazione e logica dei dati. È basato su GUI e funziona come designer per Data Services.

È possibile creare vari oggetti utilizzando Data Services Designer come progetto, lavori, flusso di lavoro, flusso di dati, mappatura, trasformazioni, ecc.

Come si controllano gli oggetti esistenti nel repository DS?

Nella libreria degli oggetti in DS Designer

Come si migliorano le prestazioni dei flussi di dati utilizzando il datastore di memoria?

È possibile creare Datastore utilizzando la memoria come tipo di database. Memory Datastore viene utilizzato per migliorare le prestazioni dei flussi di dati nei lavori in tempo reale poiché archivia i dati in memoria per facilitare l'accesso rapido e non richiede di andare all'origine dati originale.

Un datastore di memoria viene utilizzato per memorizzare gli schemi delle tabelle di memoria nel repository. Queste tabelle di memoria ottengono i dati dalle tabelle nel database relazionale o utilizzando file di dati gerarchici come messaggi XML e IDoc.

Le tabelle di memoria rimangono attive finché il lavoro non viene eseguito ei dati nelle tabelle di memoria non possono essere condivisi tra diversi lavori in tempo reale.

Cos'è il datastore collegato? Spiegare con un esempio?

Esistono vari fornitori di database che forniscono solo un percorso di comunicazione unidirezionale da un database a un altro database. Questi percorsi sono noti come collegamenti al database. In SQL Server, il server collegato consente il percorso di comunicazione unidirezionale da un database all'altro.

Example -

Si consideri un server di database locale con nome "Prodotto" che memorizza il collegamento al database per accedere alle informazioni sul server di database remoto denominato Cliente. Ora gli utenti che sono connessi al server database remoto Il cliente non può utilizzare lo stesso collegamento per accedere ai dati nel prodotto server database. Gli utenti connessi al "Cliente" devono disporre di un collegamento separato nel dizionario dei dati del server per accedere ai dati nel server del database del prodotto.

Questo percorso di comunicazione tra due database è chiamato collegamento al database e gli archivi dati creati tra queste relazioni di database collegati sono noti come archivi dati collegati.

C'è la possibilità di connettere Datastore a un altro Datastore e importare un collegamento a un database esterno come opzione di Datastore.

Vuoi importare i metadati dell'applicazione nel repository. Come puoi farlo?

Adapter Datastore consente di importare i metadati dell'applicazione nel repository. È inoltre possibile accedere ai metadati dell'applicazione e spostare i dati batch e in tempo reale tra diverse applicazioni e software.

Quali sono i diversi tipi di file che possono essere utilizzati come formato di file di origine e di destinazione?

Delimited
SAP Transport
Testo non strutturato
Binario non strutturato
Larghezza fissa

Si desidera estrarre i dati da un libro di lavoro di Excel. Come puoi farlo?

È possibile utilizzare la cartella di lavoro di Microsoft Excel come origine dati utilizzando i formati di file in Data Services. Il libro di lavoro di Excel dovrebbe essere disponibile sul file system Windows o sul file system Unix.

Qual è l'utilizzo del flusso di dati in DS?

Il flusso di dati viene utilizzato per estrarre, trasformare e caricare i dati dall'origine al sistema di destinazione. Tutte le trasformazioni, il caricamento e la formattazione avvengono nel flusso di dati.

Quali sono i diversi oggetti che puoi aggiungere a un flusso di dati?

Source
Target
Transforms

Quali sono le diverse proprietà che puoi impostare per un flusso di dati?

Esegui una volta
Parallelism
Collegamenti al database
Cache

Perché utilizzi il flusso di lavoro in DS?

I flussi di lavoro vengono utilizzati per determinare il processo per l'esecuzione dei flussi di lavoro. Lo scopo principale del flusso di lavoro è prepararsi all'esecuzione dei flussi di dati e impostare lo stato del sistema una volta completata l'esecuzione del flusso di dati.

Quali sono i diversi oggetti che puoi aggiungere al flusso di lavoro?

Flusso di lavoro
Flusso di dati
Scripts
Loops
Conditions
Prova o cattura i blocchi

È possibile che un flusso di lavoro si chiami nel lavoro dei servizi Daa?

sì

Fornisci un esempio di flusso di lavoro nella produzione?

C'è una tabella dei fatti che vuoi aggiornare e hai creato un flusso di dati con la trasformazione. Ora se vuoi spostare i dati dal sistema di origine, devi controllare l'ultima modifica per la tabella dei fatti in modo da estrarre solo le righe che sono state aggiunte dopo l'ultimo aggiornamento.

Per ottenere ciò, è necessario creare uno script che determini la data dell'ultimo aggiornamento e quindi passarlo come parametro di input al flusso di dati.

È inoltre necessario verificare se la connessione dati a una particolare tabella dei fatti è attiva o meno. Se non è attivo, è necessario impostare un blocco di cattura che invia automaticamente un'e-mail all'amministratore per notificare questo problema.

Qual è l'uso dei condizionali?

È inoltre possibile aggiungere condizionali al flusso di lavoro. Ciò consente di implementare la logica If / Else / Then nei flussi di lavoro.

Cos'è una trasformazione in Data Services?

Le trasformazioni vengono utilizzate per manipolare i set di dati come input e creare uno o più output. Esistono varie trasformazioni che possono essere utilizzate in Data Services.

Quali sono le trasformazioni comuni disponibili in Data Services?

Integrazione dei dati
Qualità dei dati
Platform
Merge
Query
Elaborazione dei dati di testo

Quali sono le diverse trasformazioni durante l'integrazione dei dati?

Data_Generator
Data_Transfer
Effective_Date
Hierarchy_flattening
Table_Comparision, ecc.

A cosa serve la trasformazione delle query?

Questa è la trasformazione più comune utilizzata in Data Services ed è possibile eseguire le seguenti funzioni:

Filtraggio dei dati dalle fonti
Unione di dati da più origini
Eseguire funzioni e trasformazioni sui dati
Mappatura delle colonne dagli schemi di input a quelli di output
Assegnazione di chiavi primarie
Aggiungere nuove colonne, schemi e funzioni risultanti agli schemi di output
Poiché la trasformazione della query è la trasformazione più comunemente utilizzata, viene fornito un collegamento per questa query nella tavolozza degli strumenti.

Che cos'è la trasformazione dell'elaborazione dei dati di testo?

Ciò consente di estrarre le informazioni specifiche da un grande volume di testo. Puoi cercare fatti ed entità come clienti, prodotti e fatti finanziari specifici di un'organizzazione.

Questa trasformazione controlla anche la relazione tra le entità e consente l'estrazione.

I dati estratti utilizzando l'elaborazione dei dati di testo possono essere utilizzati in Business Intelligence, Reporting, query e analisi.

Qual è la differenza tra l'elaborazione dei dati di testo e la pulizia dei dati?

L'elaborazione dei dati di testo viene utilizzata per trovare informazioni rilevanti da dati di testo non strutturati, tuttavia la pulizia dei dati viene utilizzata per la standardizzazione e la pulizia dei dati strutturati.

Cos'è un lavoro in tempo reale in Data Services?

È possibile creare processi in tempo reale per elaborare messaggi in tempo reale in Data Services Designer. Come un lavoro batch, il lavoro in tempo reale estrae i dati, li trasforma e li carica.

Ogni lavoro in tempo reale può estrarre dati da un singolo messaggio oppure puoi anche estrarre dati da altre fonti come tabelle o file.

Spiegare la differenza tra lavoro in tempo reale e batch in Data Services?

Trasformazioni simili a rami e logica di controllo vengono utilizzate più spesso nei lavori in tempo reale a differenza dei lavori batch in Designer.

I lavori in tempo reale non vengono eseguiti in risposta a una pianificazione oa un trigger interno a differenza dei lavori batch.

Cos'è un flusso di dati incorporato?

Il flusso di dati incorporato è noto come flussi di dati che vengono richiamati da un altro flusso di dati nella progettazione. Il flusso di dati incorporato può contenere più numeri di origini e destinazioni, ma solo un input o un output passa i dati al flusso di dati principale.

Quali sono i diversi tipi di flusso di dati incorporato?

One Input - Il flusso di dati incorporato viene aggiunto alla fine del flusso di dati.

One Output - Il flusso di dati incorporato viene aggiunto all'inizio di un flusso di dati.

No input or output - Replicare un flusso di dati esistente.

Quali sono le variabili locali e globali nel lavoro dei servizi di dati?

Le variabili locali nei servizi di dati sono limitate all'oggetto in cui vengono create.

Le variabili globali sono limitate ai lavori in cui vengono create. Utilizzando le variabili globali, è possibile modificare i valori per le variabili globali predefinite in fase di esecuzione.

In che modo le variabili sono diversi parametri di modulo in un lavoro di Data Services?

Le espressioni utilizzate nel flusso di lavoro e nel flusso di dati vengono chiamate parametri.

Tutte le variabili e parametri nel flusso di lavoro e flussi di dati sono visualizzati nella finestra variabili e parametri.

Quali sono i diversi meccanismi di ripristino che possono essere utilizzati nei lavori non riusciti?

Ripristino automatico: consente di eseguire lavori non riusciti in modalità di ripristino.

Ripristino manuale: consente di rieseguire i lavori senza considerare la ripetizione parziale della volta precedente.

A cosa serve la profilazione dei dati?

Data Services Designer fornisce una funzionalità di profilazione dei dati per garantire e migliorare la qualità e la struttura dei dati di origine. Data Profiler ti consente di:

Trova anomalie nei dati di origine, convalida e azioni correttive e qualità dei dati di origine.

La struttura e la relazione dei dati di origine per una migliore esecuzione dei lavori, flussi di lavoro e flussi di dati.

Il contenuto del sistema di origine e di destinazione per determinare che il lavoro restituisce il risultato come previsto.

Spiegare le diverse tecniche di ottimizzazione delle prestazioni in BODS?

Le prestazioni di un lavoro ETL dipendono dal sistema su cui si utilizza il software Data Services, dal numero di spostamenti, ecc. Esistono vari altri fattori che contribuiscono alle prestazioni in un'attività ETL:

Base di dati di origine
Sistema operativo di origine
Database di destinazione
Sistema operativo di destinazione
Network
Sistema operativo Job Server
Database del repository BOD

Cosa intendi per sviluppo multiutente in BODS? Come gestisci lo sviluppo multiutente?

SAP BO Data Services supporta lo sviluppo multiutente in cui ogni utente può lavorare sull'applicazione nel proprio repository locale. Ogni team utilizza il repository centrale per salvare la copia principale di un'applicazione e tutte le versioni degli oggetti nell'applicazione.

Si desidera eseguire la migrazione multiutente in SAP BODS. Come puoi farlo?

In SAP Data Services, la migrazione del lavoro può essere applicata a diversi livelli: livello applicazione, livello repository, livello aggiornamento.

Per copiare il contenuto di un repository centrale in un altro repository centrale, non è possibile farlo direttamente ed è necessario utilizzare il repository locale.

Il primo è ottenere l'ultima versione di tutti gli oggetti dal repository centrale al repository locale. Attiva il repository centrale in cui desideri copiare i contenuti.

Aggiungi tutti gli oggetti che desideri copiare dal repository locale al repository centrale.

Supponi di aver aggiornato la versione del software Data Services? È necessario aggiornare la versione del repository?

Se si aggiorna la versione di SAP Data Services, è necessario aggiornare la versione di Repository. I punti seguenti dovrebbero essere considerati quando si migra un repository centrale per aggiornare la versione:

Point 1

Effettua il backup del repository centrale di tutte le tabelle e gli oggetti.

Point 2

Per mantenere la versione degli oggetti nei servizi di dati, mantenere un repository centrale per ogni versione. Crea una nuova cronologia centrale con la nuova versione del software Data Services e copia tutti gli oggetti in questo repository.

Point 3

Si consiglia sempre, se si installa una nuova versione di Data Services, di aggiornare il proprio repository centrale a una nuova versione di oggetti.

Point 4

Inoltre, aggiorna il tuo repository locale alla stessa versione poiché una versione diversa del repository centrale e locale potrebbe non funzionare allo stesso tempo.

Point 5

Prima di migrare il repository centrale, archiviare tutti gli oggetti. Poiché non si aggiorna il repository centrale e locale contemporaneamente, è necessario archiviare tutti gli oggetti. Poiché una volta aggiornato il repository centrale alla nuova versione, non sarà possibile archiviare gli oggetti dal repository locale che dispone di una versione precedente di Data Services.

Qual è la dimensione che cambia lentamente?

Gli SCD sono dimensioni con dati che cambiano nel tempo.

Come gestisci le dimensioni che cambiano lentamente? Quali sono i campi obbligatori nella gestione dei diversi tipi di SCD?

SCD Tipo 1 Nessuna conservazione della cronologia

Conseguenza naturale della normalizzazione

SCD di tipo 2 Preserva tutta la cronologia e le nuove righe

Sono presenti nuove righe generate per modifiche significative

È necessario utilizzare una chiave univoca

Sono stati generati nuovi campi per memorizzare i dati della cronologia

Devi gestire un campo Effective_Date.

SCD Tipo 3 Conservazione della storia limitata

In questo vengono conservati solo due stati dei dati: attuale e vecchio

Il formato di file nel tipo di Data Services di un archivio dati?

No, il formato del file non è un tipo di archivio dati.

Flusso di dati e flusso di lavoro

DW e ETL

Sviluppo multiutente

SAP BO Data Services

Amministrazione SAP BODS

Datastore e formati SAP BODS

Repository SAP BODS

Trasformazioni SAP BODS

Tutorial SAP BODS

Risorse utili SAP BODS