Data Warehousing - Backup
Un data warehouse è un sistema complesso e contiene un enorme volume di dati. Pertanto è importante eseguire il backup di tutti i dati in modo che diventi disponibile per il ripristino in futuro secondo i requisiti. In questo capitolo, discuteremo i problemi nella progettazione della strategia di backup.
Terminologie di backup
Prima di procedere oltre, è necessario conoscere alcune delle terminologie di backup discusse di seguito.
Complete backup- Esegue il backup dell'intero database contemporaneamente. Questo backup include tutti i file di database, i file di controllo e i file journal.
Partial backup- Come suggerisce il nome, non crea un backup completo del database. Il backup parziale è molto utile nei database di grandi dimensioni perché consente una strategia in base alla quale viene eseguito il backup di varie parti del database in modo round robin su base giornaliera, in modo che il backup dell'intero database venga eseguito efficacemente una volta alla settimana.
Cold backup- Il backup a freddo viene eseguito mentre il database è completamente chiuso. Nell'ambiente multiistanza, tutte le istanze dovrebbero essere chiuse.
Hot backup- Il backup a caldo viene eseguito quando il motore del database è attivo e in esecuzione. I requisiti del backup a caldo variano da RDBMS a RDBMS.
Online backup - È abbastanza simile al backup a caldo.
Backup hardware
È importante decidere quale hardware utilizzare per il backup. La velocità di elaborazione del backup e del ripristino dipende dall'hardware utilizzato, dalla modalità di collegamento dell'hardware, dalla larghezza di banda della rete, dal software di backup e dalla velocità del sistema I / O del server. Qui discuteremo alcune delle scelte hardware disponibili e i loro pro e contro. Queste scelte sono le seguenti:
- Tecnologia a nastro
- Backup del disco
Tecnologia a nastro
La scelta del nastro può essere classificata come segue:
- Supporti su nastro
- Unità a nastro autonome
- Impilatori di nastri
- Silos di nastri
Tape Media
Esistono diverse varietà di supporti a nastro. Alcuni standard dei supporti a nastro sono elencati nella tabella seguente:
Supporto a nastro | Capacità | Velocità di I / O |
---|---|---|
DLT | 40 GB | 3 MB / s |
3490e | 1,6 GB | 3 MB / s |
8 mm | 14 GB | 1 MB / s |
Altri fattori che devono essere considerati sono i seguenti:
- Affidabilità del supporto nastro
- Costo del supporto nastro per unità
- Scalability
- Costo degli aggiornamenti al sistema a nastro
- Costo del supporto nastro per unità
- Periodo di validità del supporto nastro
Standalone Tape Drives
Le unità a nastro possono essere collegate nei seguenti modi:
- Direttamente al server
- Come dispositivi disponibili in rete
- In remoto su un'altra macchina
Potrebbero verificarsi problemi nel collegare le unità nastro a un data warehouse.
Considera che il server è una macchina MPP a 48 nodi. Non conosciamo il nodo per connettere l'unità a nastro e non sappiamo come distribuirli sui nodi del server per ottenere le prestazioni ottimali con il minimo disagio del server e la minore latenza I / O interna.
Il collegamento dell'unità a nastro come dispositivo disponibile in rete richiede che la rete sia all'altezza delle enormi velocità di trasferimento dei dati. Assicurati che sia disponibile una larghezza di banda sufficiente per tutto il tempo richiesto.
Anche il collegamento delle unità a nastro in remoto richiede una larghezza di banda elevata.
Impilatori di nastri
Il metodo per caricare più nastri in una singola unità nastro è noto come impilatori di nastri. Lo stacker smonta il nastro corrente quando ha finito con esso e carica il nastro successivo, quindi è disponibile un solo nastro alla volta a cui accedere. Il prezzo e le funzionalità possono variare, ma l'abilità comune è che possono eseguire backup automatici.
Silos a nastro
I silos di nastri forniscono grandi capacità di magazzino. I silos di nastri possono archiviare e gestire migliaia di nastri. Possono integrare più unità nastro. Hanno il software e l'hardware per etichettare e archiviare i nastri che archiviano. È molto comune che il silo sia connesso in remoto tramite una rete o un collegamento dedicato. Dovremmo assicurarci che la larghezza di banda della connessione sia all'altezza del lavoro.
Backup del disco
I metodi di backup del disco sono:
- Backup da disco a disco
- Specchio che si rompe
Questi metodi vengono utilizzati nel sistema OLTP. Questi metodi riducono al minimo il tempo di inattività del database e massimizzano la disponibilità.
Disk-to-Disk Backups
Qui il backup viene eseguito sul disco piuttosto che sul nastro. I backup da disco a disco vengono eseguiti per i seguenti motivi:
- Velocità dei backup iniziali
- Velocità di ripristino
Il backup dei dati da disco a disco è molto più veloce che su nastro. Tuttavia è il passaggio intermedio del backup. Successivamente viene eseguito il backup dei dati sul nastro. L'altro vantaggio dei backup da disco a disco è che fornisce una copia online dell'ultimo backup.
Mirror Breaking
L'idea è di avere dischi con mirroring per la resilienza durante la giornata lavorativa. Quando è richiesto il backup, uno dei set di mirror può essere suddiviso. Questa tecnica è una variante dei backup da disco a disco.
Note - Potrebbe essere necessario chiudere il database per garantire la coerenza del backup.
Jukebox ottici
I jukebox ottici consentono di memorizzare i dati vicino alla linea. Questa tecnica consente di gestire un gran numero di dischi ottici allo stesso modo di un impilatore di nastri o di un silo di nastri. Lo svantaggio di questa tecnica è che ha una velocità di scrittura ridotta rispetto ai dischi. Ma il supporto ottico offre lunga durata e affidabilità che li rende una buona scelta di supporto per l'archiviazione.
Backup software
Sono disponibili strumenti software che aiutano nel processo di backup. Questi strumenti software vengono forniti come pacchetto. Questi strumenti non solo eseguono il backup, ma possono gestire e controllare efficacemente le strategie di backup. Ci sono molti pacchetti software disponibili sul mercato. Alcuni di loro sono elencati nella tabella seguente:
Nome del pacchetto | Venditore |
---|---|
Networker | Legato |
ADSM | IBM |
Epoca | Epoch Systems |
Omniback II | HP |
Alessandria | Sequent |
Criteri per la scelta dei pacchetti software
I criteri per la scelta del miglior pacchetto software sono elencati di seguito:
- Quanto è scalabile il prodotto quando vengono aggiunte le unità a nastro?
- Il pacchetto ha un'opzione client-server o deve essere eseguito sul server database stesso?
- Funzionerà in ambienti cluster e MPP?
- Quale grado di parallelismo è richiesto?
- Quali piattaforme sono supportate dal pacchetto?
- Il pacchetto supporta un facile accesso alle informazioni sui contenuti del nastro?
- Il database dei pacchetti è a conoscenza?
- Quali unità a nastro e supporti a nastro sono supportati dal pacchetto?