Guida alla pianificazione del ripristino di emergenza

Last reviewed 2024-07-05 UTC

Questo documento è la prima parte di una serie che tratta Ripristino di emergenza (RE) in Google Cloud. Questa parte fornisce una panoramica della RE del processo di pianificazione: cosa devi sapere per progettare e implementare una RE e il piano d'azione. Le parti successive discutono di casi d'uso specifici di RE con esempi implementazioni su Google Cloud.

La serie è costituita dai seguenti componenti:

Gli eventi che interrompono il servizio possono verificarsi in qualsiasi momento. La tua rete potrebbe avere un'interruzione del servizio, l'ultimo push dell'applicazione potrebbe introdurre un bug critico oppure potrebbe dover fare i conti con una calamità naturale. Quando le cose vanno storte, è importante avere un piano di RE solido, mirato e ben collaudato.

Con un piano di RE ben progettato e collaudato, puoi assicurarti che, catastrofiche, l'impatto sui profitti della tua azienda sarà minimo. No a prescindere dalle tue esigenze di RE, Google Cloud offre un servizio una selezione conveniente di prodotti e funzionalità che puoi usare per creare a potenziare la soluzione che fa al caso tuo.

Nozioni di base sulla pianificazione di RE

RE è un sottoinsieme pianificazione della continuità aziendale. La pianificazione di RE inizia con un'analisi dell'impatto aziendale che definisce due metrics:

  • R Recovery Time Objective (RTO), ovvero il periodo di tempo massimo accettabile per cui è possibile presentare domanda offline. Questo valore è di solito definito come parte di un l'accordo sul livello del servizio (SLA, Service Level Agreement).
  • R Recovery Point Objective (RPO), ovvero il periodo massimo accettabile durante il quale i dati possono essere persi dalla tua applicazione a causa di un incidente grave. Questa metrica varia in base alle modalità di utilizzo dei dati. Ad esempio, i dati utente che sono modificati di frequente può avere un RPO di pochi minuti. Al contrario, i dati meno critici e modificati di rado potrebbero avere un RPO di diversi nell'orario lavorativo locale del TAM. Questa metrica descrive solo il periodo di tempo; non tratta la quantità o la qualità dei dati persi.)

Generalmente, minori sono i valori RTO e RPO (ovvero, più rapidamente l'applicazione deve recuperare in seguito a un'interruzione), più l'applicazione costo di esecuzione. Il seguente grafico mostra il rapporto tra i costi e l'RTO/RPO.

Il grafico mostra che RTO/RPO di dimensioni ridotte è associato a costi elevati.

Poiché valori di RTO e RPO più piccoli spesso corrispondono a una maggiore complessità, l'overhead amministrativo segue una curva simile. Un'applicazione ad alta disponibilità potrebbe richiedere la gestione della distribuzione tra due dati separati fisicamente center, gestione della replica e altro.

I valori RTO e RPO solitamente vengono raggruppati in un'altra metrica: obiettivo del livello di servizio (SLO), un elemento misurabile chiave di uno SLA. SLA e SLO sono spesso confusa. Uno SLA è l'intero accordo che specifica quale servizio fornito, come viene supportato, tempi, località, costi, prestazioni, penalità e le responsabilità delle parti coinvolte. Gli SLO sono specifici e misurabili le caratteristiche dello SLA, come disponibilità, velocità effettiva, il tempo di risposta o la qualità. Uno SLA può contenere molti SLO. Gli RTO e gli RPO misurabili e dovrebbero essere considerati SLO.

Puoi scoprire di più SLO e SLA nel libro Google Site Reliability Engineering.

Potresti anche voler pianificare un'architettura alta disponibilità (HA). L'alta disponibilità non si sovrappone completamente alla RE, ma spesso è necessario se si pensi ai valori RTO e RPO. L'alta disponibilità aiuta a garantire di prestazioni operative concordate, di solito tempo di attività, per un periodo superiore al normale. Quando esegui carichi di lavoro di produzione Google Cloud, potresti utilizzare un sistema distribuito a livello globale si è verificato un problema in una regione, l'applicazione continua a fornire il servizio anche se sono meno disponibili. In sostanza, l'applicazione richiama il suo RE e il piano d'azione.

Perché Google Cloud?

Google Cloud può ridurre notevolmente i costi associati a RTO e RPO rispetto al soddisfacimento dei requisiti RTO e RPO on-premise. Ad esempio, la pianificazione RE richiede di tenere conto di una serie e requisiti aggiuntivi, tra cui:

  • Capacità: proteggi risorse sufficienti per scalare in base alle esigenze.
  • Sicurezza: fornire sicurezza fisica per proteggere le risorse.
  • Infrastruttura di rete: inclusi componenti software come firewall e bilanciatori del carico.
  • Assistenza:mettere a disposizione tecnici qualificati per eseguire la manutenzione e risolvere i problemi.
  • Larghezza di banda: pianifica la larghezza di banda adeguata per i picchi di carico.
  • Strutture: garantire l'infrastruttura fisica, comprese attrezzature e corrente.

Fornendo una soluzione altamente gestita su una piattaforma di produzione di altissimo livello, Google Cloud ti aiuta ad aggirare gran parte o tutti questi fattori di complicazione, eliminando molti costi aziendali durante il processo. Inoltre, l'interfaccia utente di Google Cloud puntare alla semplicità amministrativa significa che i costi di gestione di un anche le applicazioni sono ridotte.

Google Cloud offre diverse funzionalità per la pianificazione di RE, tra cui:

  • Una rete globale. Google ha uno dei più grandi e avanzati reti di computer nel mondo. La rete backbone di Google utilizza tecnologie di networking software-defined e di memorizzazione in una cache perimetrale per offrire coerente e scalabile.
  • Ridondanza. La presenza di molteplici punti di presenza (da un periodo all'altro) in tutto il mondo indica di elevata ridondanza. Il mirroring dei dati viene eseguito automaticamente nello spazio di archiviazione più dispositivi in più luoghi.
  • Scalabilità. Google Cloud è progettato per scalare come gli altri prodotti (ad esempio, ricerca e Gmail), anche quando si verifica un un picco di traffico. Servizi gestiti come Cloud Run, Compute Engine e Firestore forniscono scalabilità automatica che consente alla tua applicazione di crescere e, se necessario, ridurle.
  • Sicurezza. La Modello di sicurezza di Google si basa su decenni di esperienza nel contribuire alla sicurezza dei clienti nelle applicazioni Google come Gmail e Google Workspace. Inoltre, i team di Site Reliability Engineering di Google contribuiscono a garantire un'alta disponibilità e prevenire l'uso illecito delle risorse della piattaforma.
  • Conformità. Google si sottopone a regolari controlli di terze parti indipendenti per verificare che Google Cloud sia in linea con sicurezza, privacy normative e best practice di conformità. Google Cloud conforme con certificazioni come ISO 27001, SOC 2/3 e PCI DSS 3.0.

Pattern RE

I pattern di RE sono considerati freddi, caldi o caldi. Questi pattern indicano come il sistema può ripristinare facilmente se qualcosa va storto. Un'analogia potrebbe essere che cosa faresti se stessi guidando e forando uno pneumatico.

Il modo in cui devi gestire una gomma a terra dipende dal tuo livello di preparazione:

  • Freddo: non hai una ruota di scorta, quindi devi chiamare qualcuno per venire da te con una nuova gomma e sostituirla. Il percorso si interrompe finché non arriva i soccorsi per effettuare la riparazione.
  • Calda: hai una ruota di scorta e un kit di sostituzione, così puoi rimetterti per strada utilizzando i componenti della tua auto. Tuttavia, devi interrompere per risolvere il problema.
  • Caldo: hai pneumatici run-flat. Potrebbe essere necessario rallentare un po', ma non abbia un impatto immediato sul tuo percorso. Gli pneumatici funzionano abbastanza bene che puoi continuare (anche se alla fine dovrai risolvere il problema).

Creare un piano di RE dettagliato

Questa sezione fornisce consigli su come creare il tuo piano di RE.

Progettati in base ai tuoi obiettivi di recupero

Quando progetti il tuo piano di RE, devi combinare l'applicazione e i dati tecniche di recupero e avere un quadro più ampio. Il modo tipico per farlo è esaminare i valori RTO e RPO e quale modello di RE puoi adottare per soddisfare quei valori. Ad esempio, nel caso di dati storici orientati alla conformità, probabilmente non avrai bisogno di un accesso rapido ai dati, quindi un valore RTO elevato il pattern di RE è appropriato. Tuttavia, se il servizio online presenta un interruzione, dovrai poter recuperare sia i dati che il più rapidamente possibile una parte dell'applicazione rivolta agli utenti. In questo caso, più appropriato sarebbe più appropriato. Il tuo sistema di notifica via email, di solito non è essenziale per l'attività ed è probabilmente un candidato per un modello caldo.

Per indicazioni sull'utilizzo di Google Cloud per affrontare scenari di RE comuni, consulta gli scenari di ripristino delle applicazioni. Questi scenari forniscono RE mirata strategie per una varietà di casi d'uso e offrire esempi di implementazioni Google Cloud per ciascuno.

Progetta per il recupero end-to-end

Non basta avere un piano per il backup o l'archiviazione dei dati. Marca che il tuo piano di RE risolva l'intero processo di ripristino, dal backup al ripristino la pulizia. Ne discuteremo nei documenti correlati sui dati di RE e sul ripristino.

Rendi specifiche le tue attività

Quando è il momento di eseguire il tuo piano di RE, è meglio non essere costretti a indovinare ogni passaggio. Fai in modo che ogni attività del tuo piano di RE sia composta da una o più comandi o azioni non ambigui. Ad esempio, "Esegui lo script di ripristino". è troppo in generale. Al contrario, "Apri una shell ed esegui /home/example/restore.sh" sono precisi e concreti.

Implementazione di misure di controllo

Aggiungi controlli per impedire il verificarsi di disastri e rilevare i problemi prima che si verifichino. Ad esempio, aggiungi un monitor che invii un avviso quando un flusso di dati distruttivi, ad esempio una pipeline di eliminazione, mostra picchi imprevisti o altre attività insolite. Questo monitoraggio potrebbe anche terminare la pipeline di processo se viene raggiunta una determinata soglia di eliminazione, evitando un evento catastrofico la situazione.

Preparazione del software

Parte della pianificazione di RE consiste nell'assicurarti che il software su cui fai affidamento sia pronto per un evento di recupero.

Verifica di poter installare il software

Assicurati che il software dell'applicazione possa essere installato da un'origine o da un un'immagine preconfigurata. Assicurati di disporre della licenza adeguata per qualsiasi di cui eseguirai il deployment su Google Cloud, fornitore del software.

Assicurati che le risorse Compute Engine necessarie siano disponibili nel di ripristino dell'ambiente di ripristino. Ciò potrebbe richiedere la preallocazione di istanze prenotare che li rappresentano.

Progettare il deployment continuo per il ripristino

Il set di strumenti di deployment continuo (CD) è un componente integrante quando il deployment delle tue applicazioni. Nell'ambito del tuo piano di recupero, devi considerare in cui eseguirai il deployment degli artefatti nell'ambiente recuperato. Pianifica dove ospitare l'ambiente CD e gli artefatti: devono essere disponibili operativo in caso di emergenza.

Implementazione dei controlli di sicurezza e conformità

Quando si progetta un piano di RE, la sicurezza è importante. Gli stessi controlli presenti nell'ambiente di produzione devono applicare i dati completamente gestito di Google Cloud. Le normative di conformità verranno applicate anche ai tuoi contenuti completamente gestito di Google Cloud.

Configurare la sicurezza allo stesso modo per gli ambienti di RE e di produzione

Assicurati che i controlli di rete forniscano la stessa separazione e blocco utilizzati dall'ambiente di produzione di origine. Scopri come configurare VPC condiviso e firewall per consentirti di avere il controllo centralizzato della rete e della sicurezza il deployment, la configurazione delle subnet e il controllo del traffico in entrata e in uscita. Utilizzare gli account di servizio per implementare il privilegio minimo per che accedono alle API Google Cloud. Assicurati di utilizzare il servizio degli account con le regole firewall.

Assicurati di concedere agli utenti lo stesso accesso all'ambiente di RE che hanno nell'ambiente di produzione di origine. Il seguente elenco illustra i modi per sincronizza le autorizzazioni tra gli ambienti:

  • Se il tuo ambiente di produzione è Google Cloud, la replica di IAM nell'ambiente di RE è semplice. Puoi utilizzare IaC (Infrastructure as Code) strumenti come Terraform per eseguire il deployment IAM i criteri di addestramento alla produzione. Potrai quindi utilizzare gli stessi strumenti per vincolare i criteri a le risorse corrispondenti nell'ambiente RE nell'ambito del processo di migliorare l'ambiente di RE.

  • Se il tuo ambiente di produzione è on-premise, mapperai ruoli, ad esempio i ruoli di amministratore di rete e revisore, i criteri IAM che dispongono dei livelli IAM appropriati ruoli. La documentazione IAM include alcuni esempi di ruolo funzionale configurazioni. Ad esempio, consulta la documentazione per la creazione networking e log di controllo ruoli funzionali.

  • Devi configurare i criteri IAM per concedere autorizzazioni ai prodotti. Ad esempio, potresti voler limitare l'accesso a specifici bucket Cloud Storage.

  • Se il tuo ambiente di produzione è un altro cloud provider, mappa la autorizzazioni nei criteri IAM dell'altro provider a Google Cloud IAM criteri.

Verifica la sicurezza di RE

Dopo aver configurato le autorizzazioni per l'ambiente RE, assicurati di testare tutto. Crea un ambiente di test. Verifica che le autorizzazioni che gli utenti dispongono di risorse on-premise.

Assicurati che gli utenti possano accedere all'ambiente di RE

Non attendere che si verifichi una situazione di emergenza prima di verificare che i tuoi utenti possono accedere all'ambiente di RE. Assicurati di aver concesso diritti di accesso a utenti, sviluppatori, operatori, data scientist, sicurezza amministratori di rete, amministratori di rete e qualsiasi altro ruolo nel tuo dell'organizzazione. Se utilizzi un sistema di identità alternativo, assicurati che: sono stati sincronizzati con il tuo account Cloud Identity. Poiché il RE sarà il tuo ambiente di produzione per un po', fai in modo che i tuoi utenti avrà bisogno di accedere all'ambiente RE per accedere e risolvere eventuali problemi di autenticazione. Incorporare gli utenti che accedono a RE nell'ambito dei normali test di RE implementati.

Per gestire centralmente chi ha accesso amministrativo alle macchine virtuali (VM) che abilita il Accesso al sistema operativo sui progetti Google Cloud che costituiscono il tuo ambiente di RE.

Formare gli utenti

Gli utenti devono capire come intraprendere le azioni in Google Cloud che per svolgere operazioni nell'ambiente di produzione, come l'accesso e l'accesso alle VM. Utilizzando l'ambiente di test, forma gli utenti sulle prestazioni queste attività in modo da salvaguardare la sicurezza del sistema.

Assicurati che l'ambiente di RE soddisfi i requisiti di conformità

Verifica che l'accesso al tuo ambiente RE sia limitato solo a coloro che devono access. Assicurati che i dati PII siano oscurati e criptati. Se esegui test di penetrazione regolari nell'ambiente di produzione, è necessario includere dell'ambiente di RE nell'ambito di tale ambito ed eseguire test regolari in un ambiente di RE.

Assicurati che, mentre l'ambiente di RE è in servizio, tutti i log raccolta vengono sottoposti a backfill nell'archivio log dell'ambiente di produzione. Allo stesso modo, assicurati che nell'ambiente di RE sia possibile esportare i controlli i log raccolti tramite Cloud Logging nell'archivio del sink di log principale. Utilizza i servizi di sink di esportazione. Per i log delle applicazioni, crea un mirror del logging e del monitoraggio on-premise completamente gestito di Google Cloud. Se il tuo ambiente di produzione è un altro cloud provider, mappalo il logging e il monitoraggio del provider ai servizi Google Cloud equivalenti. Prepara un processo per formattare l'input nel tuo ambiente di produzione.

Tratta i dati recuperati come dati di produzione

Assicurati che anche i controlli di sicurezza applicati ai dati di produzione si applicano ai dati recuperati: le stesse autorizzazioni, la stessa crittografia e le stesse sono applicabili tutti i requisiti.

Scopri dove si trovano i tuoi backup e chi è autorizzato a ripristinare i dati. Marca sia possibile controllare il processo di ripristino; dopo un ripristino di emergenza, può mostrare chi ha accesso ai dati di backup e chi ha eseguito e il ripristino di emergenza.

Verificare il funzionamento del piano di RE

In caso di disastro, assicurati che il tuo piano di RE funzioni come previsto.

Gestire più di un percorso di recupero dei dati

In caso di emergenza, il metodo di connessione a Google Cloud potrebbe non saranno più disponibili. Implementare un mezzo di accesso alternativo Google Cloud per assicurarti di poter trasferire i dati in Google Cloud. Verifica regolarmente che il percorso di backup sia operativo.

Verifica regolarmente il piano

Dopo aver creato un piano di RE, testalo regolarmente, rilevando eventuali problemi e modificare il piano di conseguenza. Con Google Cloud puoi scenari di ripristino di test con costi minimi. Ti consigliamo di implementare per aiutarti a eseguire il test:

  • Automatizzare il provisioning dell'infrastruttura. Puoi usare strumenti IaC come Terraform per automatizzare il provisioning del tuo account Google Cloud dell'infrastruttura. Se esegui il tuo ambiente di produzione on-premise, assicurati di disporre di un processo di monitoraggio che possa avviare quello di RE quando rileva un errore e può attivare le azioni di ripristino appropriate.
  • Monitora i tuoi ambienti con Google Cloud Observability}. Google Cloud offre ottimi strumenti di logging e monitoraggio che puoi mediante chiamate API, permettendoti di automatizzare il deployment scenari di ripristino reagendo alle metriche. Quando progetti i test, assicurati di disporre di strumenti di monitoraggio e avvisi adeguati possa attivare azioni di recupero appropriate.
  • Esegui i test indicati in precedenza:

    • Verifica che le autorizzazioni e l'accesso utente funzionino in RE nell'ambiente di produzione.
    • Eseguire un test di penetrazione nel proprio ambiente di RE.
    • Esegui un test in cui il tuo consueto percorso di accesso a Google Cloud non funziona.

Passaggi successivi

Collaboratori

Autori: