Planejamento de recuperação de desastres na era da nuvem: definição de estratégia e desenvolvimento de planos

Conforme observado no primeiro artigo desta série, as estratégias e os procedimentos de recuperação de desastres (DR) de TI ajudam as organizações a proteger seus investimentos em sistemas e infraestruturas de TI.

A missão essencial da DR é retornar as operações de TI a um nível aceitável de desempenho o mais rápido possível após um evento de interrupção.

Assim, após a conclusão de uma avaliação de risco (RA) e análise de impacto nos negócios (BIA), precisamos examinar os serviços críticos de TI necessários para dar suporte às atividades comerciais críticas da organização.

Neste artigo, veremos como definir uma estratégia de recuperação de desastres e desenvolver planos de DR detalhados.

Inclua RPO e RTO na estratégia de DR

Antes de examinarmos a estratégia e o planejamento de DR em detalhes, precisamos considerar duas métricas vitais, a saber, objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO).

De acordo com a ISO/IEC 27031:2011, o padrão global para recuperação de desastres de TI (referido como tecnologia da informação e comunicação, ou TIC, no padrão), RTO é “o período de tempo dentro do qual os níveis mínimos de serviços e /ou produtos e os sistemas, aplicativos ou funções de suporte devem ser recuperados após a ocorrência de uma interrupção”.

Enquanto isso, RPO é “o ponto no tempo em que os dados devem ser recuperados após a ocorrência de uma interrupção”. Essas duas métricas são necessárias para definir estratégias de DR.

RPO/RTO e a nuvem

Observe que essas duas métricas são afetadas pelo uso de serviços baseados em nuvem e considerações de segurança cibernética.

Por exemplo, o RTO para um datacenter no local pode ser mais fácil de calcular, pois todas as operações estão dentro do próprio local da organização.

Por outro lado, quando as operações de TI são transferidas para serviços baseados em nuvem, o RTO deve ser fornecido pelo fornecedor de nuvem, que pode ou não ser capaz de oferecer um valor aceitável. O mesmo acontece quando os dados estão localizados em um serviço de nuvem.

Os sistemas de armazenamento de dados no local facilitam o suporte aos valores de RPO, enquanto os provedores de armazenamento externo baseados em nuvem podem não ser capazes de oferecer um RPO confiável. Ambas as preocupações tornam altamente recomendável um contrato de nível de serviço (SLA) sólido, pois define os níveis de desempenho acordados que o terceiro deve suportar.

Estratégia e planos detalhados no processo de planejamento de DR

A Figura 1 descreve os estágios do ciclo de vida de recuperação de desastres de TI e é adaptada da ISO 27031:2011. A figura mostra que, além do desenvolvimento da estratégia, atividades adicionais devem ser consideradas antes que os planos de DR possam ser desenvolvidos.

Por exemplo, uma política de recuperação de desastres de TI é uma parte essencial do processo geral de DR. É, em especial, um item importante a ser examinado durante as auditorias, por isso seu desenvolvimento é essencial.

Uma análise de lacunas, que pode ser realizada após as atividades de avaliação de risco e análise de impacto nos negócios, se necessário, ajuda a identificar áreas de melhoria que podem aprimorar o processo geral de planejamento de recuperação de desastres.

Os critérios de desempenho tecnológico podem ser identificados a partir de BIAs, RAs e análises de lacunas e serão considerados nos planos de DR. Essas atividades também podem identificar os recursos necessários para atingir os níveis de desempenho desejados. BIAs e RAs também devem levar em conta os recursos humanos, não apenas durante um evento perturbador, mas também durante as operações normais.

Definição da estratégia

Uma vez que os sistemas e funções críticas e RTOs e RPOs tenham sido estabelecidos e aprovados, o próximo passo é definir estratégias para responder a incidentes disruptivos quando eles ocorrerem .

A ISO 27031 declara: “As estratégias devem definir as abordagens para implementar a resiliência necessária para que os princípios de prevenção, detecção, resposta, recuperação e restauração de incidentes sejam implementados.”

As estratégias definem “o que” deve ser feito ao responder a um incidente, enquanto os planos descrevem “como” as atividades de resposta e recuperação serão realizadas.

Depois que sistemas críticos, dados, redes, elementos de segurança cibernética e empresas de serviços em nuvem forem identificados, use o exemplo da Tabela 1 como ponto de partida para ajudar a formular as estratégias necessárias para protegê-los.

Fatores a serem considerados ao desenvolver tal tabela podem incluir orçamentos; opiniões da administração em relação aos riscos; questões de segurança cibernética; disponibilidade de recursos, especialmente serviços em nuvem; custos versus benefícios; restrições humanas; restrições tecnológicas; e requisitos regulamentares.

Fatores-chave na definição da estratégia de DR

A seguir, questões importantes ao desenvolver estratégias de DR, especialmente ao considerar o uso de serviços baseados em nuvem.

Considerações sobre pessoas

Entre as principais questões estão a disponibilidade de funcionários e/ou contratados, necessidades de treinamento de funcionários e contratados, duplicação de habilidades críticas para que possa haver um principal e pelo menos um backup, documentação disponível para ser usada pela equipe e acompanhamento para garantir a retenção do conhecimento por funcionários e contratados.

O uso de serviços em nuvem apresenta considerações adicionais, como segurança de dados e sistemas, qualificações da equipe do provedor de nuvem, potencial para funcionários de nuvem desonestos danificarem ou roubarem recursos do cliente, disposição dos representantes do provedor de nuvem para responder a perguntas com sinceridade e a capacidade da equipe do provedor de nuvem para lidar com os requisitos do cliente.

Instalações físicas

Aqui, precisamos considerar a disponibilidade de áreas de trabalho alternativas dentro do mesmo local, em um local diferente da empresa, em um local fornecido por terceiros, nas casas dos funcionários e em uma instalação de trabalho transportável (como um trailer equipado fora para o espaço de trabalho).

Também é importante considerar a segurança do local, procedimentos de acesso da equipe, crachás de identificação e localização de espaço alternativo em relação ao local do escritório principal. Pode não ser possível visitar fisicamente as instalações do provedor de nuvem, e os sistemas e dados do cliente podem ser armazenados em vários datacenters, portanto, os usuários devem estar preparados para confiar nos provedores de nuvem para proteger seus ativos em datacenters seguros e ambientalmente seguros.

Considerações de tecnologia

Isso inclui itens como acesso ao espaço do equipamento configurado adequadamente para sistemas (por exemplo, piso elevado), aquecimento, ventilação e ar-condicionado (HVAC) adequados, energia elétrica primária suficiente, infraestrutura de voz e dados adequada, distância de tecnologia alternativa área do site principal, provisão de equipe em um site de tecnologia alternativo, disponibilidade de tecnologias de failover (para um sistema de backup) e failback (retorno às operações normais) para facilitar a recuperação, a necessidade de dar suporte a sistemas legados e recursos de segurança física e de informações em o site alternativo.

Cada um desses problemas deve ser tratado com cuidado ao usar um provedor de serviços em nuvem. É aconselhável incluí-los em acordos de nível de serviço (SLAs), se possível.

Considerações de dados

Aqui temos que incluir backup oportuno de dados críticos em uma área de armazenamento segura de acordo com os requisitos RTO/RPO, método(s) de armazenamento de dados (por exemplo, disco, fita, óptico), requisitos de conectividade e largura de banda para garantir todos os dados críticos podem ser copiados de acordo com escalas de tempo RTO/RPO, recursos de proteção de dados em local de armazenamento alternativo e disponibilidade de suporte técnico de provedores de serviços terceirizados qualificados.

Essas considerações são essenciais ao usar um provedor de serviços em nuvem, especialmente seus recursos para armazenar e acessar sistemas e dados do cliente, como eles protegem seus perímetros de rede contra ataques cibernéticos, como acomodam os requisitos de RTO/RPO do cliente e como testam seus próprios planos de DR.

Considerações do fornecedor

Aqui precisamos identificar e contratar fornecedores primários e alternativos para todos os sistemas e processos críticos, e até mesmo para o fornecimento de pessoal. As principais áreas em que fornecedores alternativos serão importantes incluem hardware (servidores, racks), energia (baterias, UPS, proteção de energia), redes (serviços de rede de voz e dados), reparo e substituição de componentes e várias empresas de entrega (Fedex e UPS) .

Muitos desses problemas podem ser mitigados usando um provedor de serviços em nuvem, mas ainda é prudente manter backups de dados e aplicativos críticos e ter suprimentos de componentes críticos do sistema.

Políticas e procedimentos

As etapas principais aqui incluem definir políticas para recuperação de desastres de TI, aprová-las pela gerência sênior, definir procedimentos passo a passo (por exemplo, para iniciar o backup de dados em locais alternativos seguros), realocação de operações para um espaço alternativo , recuperação de sistemas e dados nos locais alternativos e retomada das operações no local original ou em um novo local. Ao usar serviços de nuvem, certifique-se de incluir as considerações de nuvem em todas as políticas de DR e documentos processuais relacionados.

Finalmente, certifique-se de obter a aprovação da gerência para as estratégias, políticas e procedimentos planejados. Esteja preparado para demonstrar que as estratégias propostas se alinham com os objetivos de negócios da organização e as estratégias de continuidade de negócios.

Traduzindo estratégias em planos de DR

A próxima etapa após a conclusão das estratégias de DR é traduzi-las em planos e procedimentos de recuperação de desastres. Para mostrar como isso pode ser feito, a Tabela 1 foi revisada na Tabela 2, a seguir.

Mostra os sistemas críticos e ameaças associadas, a estratégia de resposta e (novas) etapas de ação de resposta, a estratégia de recuperação e (novas) etapas de ação de recuperação. A execução dessa etapa ajuda a definir as etapas de ação de alto nível que fazem parte do plano de DR.

Use a Tabela 2 para expandir as etapas de ação de alto nível em procedimentos passo a passo detalhados, conforme necessário. Certifique-se de que eles estão ligados na seqüência correta.

Desenvolvimento de planos de DR

Os planos de recuperação de desastres fornecem um processo passo a passo para responder a um evento perturbador.

Os procedimentos devem garantir um processo fácil de usar e repetível para recuperar ativos de TI danificados e retorná-los à operação normal o mais rápido possível. Se for necessária a realocação da equipe para um hotsite de terceiros ou outro espaço alternativo, devem ser desenvolvidos procedimentos para essas atividades. As etapas para o uso de recursos de backup baseados em nuvem devem ser desenvolvidas em coordenação com o provedor de nuvem, para que os procedimentos sejam executados na sequência adequada.

Considere também revisar os padrões globais ISO/IEC 24762 (Diretrizes para serviços de recuperação de desastres de tecnologia da informação e comunicação) e ISO/IEC 27035 (Atividades de resposta a incidentes) ao desenvolver planos de DR.

Resposta a incidentes

Além de usar as estratégias previamente desenvolvidas, os planos de recuperação de desastres de TI também devem incluir um processo de resposta a incidentes (ISO/IEC 27035) para abordar as fases iniciais do incidente e as providências a serem tomadas.

Como na Figura 2, as ações de resposta a incidentes devem preceder as ações de recuperação de desastres. Quando os serviços de nuvem forem usados, trabalhe com o provedor para incorporar suas atividades de resposta a incidentes no plano de DR.

Observação: o gerenciamento de emergência foi incluído na Figura 2, pois representa atividades que podem ser necessárias para lidar com situações em que pessoas são feridas ou situações como incêndios que devem ser tratadas pelos bombeiros locais e outros socorristas.

A estrutura do plano de DR

A seção a seguir detalha a estrutura e os componentes de um plano de DR baseado na ISO 27031 e ISO 24762.

Os melhores planos de DR geralmente começam com uma ou duas páginas que resumem as principais etapas de ação (por exemplo, onde reunir os funcionários se forçados a evacuar o prédio) e listas de contatos importantes (por exemplo, provedores de nuvem, fornecedores alternativos áreas de trabalho) e suas informações de contato para facilitar a autorização e o lançamento do plano.

Introdução

Seguindo as páginas iniciais de emergência, os planos de DR têm uma introdução que inclui a finalidade e o escopo do plano. Esta seção deve especificar quem aprovou o plano, quem está autorizado a ativá-lo e incluir uma lista de links para quaisquer outros planos e documentos relevantes (por exemplo, políticas).

Funções e responsabilidades

A próxima seção deve definir as funções e responsabilidades dos membros da equipe de DR, seus detalhes de contato, limites de gastos (por exemplo, se for necessário comprar equipamentos) e limites de autoridade em uma situação de desastre. Quando os serviços de nuvem estão sendo usados, esses mesmos parâmetros devem ser definidos para o provedor de nuvem.

Resposta a incidentes

O processo de resposta a incidentes identifica a presença repentina de uma situação fora do normal (por exemplo, alertado por vários alarmes no nível do sistema), avalia rapidamente a situação (e qualquer dano) para fazer uma determinação antecipada de sua gravidade, tenta conter o incidente e colocá-lo sob controle e notifica a administração, os provedores de serviços em nuvem e outras partes interessadas importantes.

Ativação do plano

Com base nas descobertas das atividades de resposta a incidentes, a próxima etapa é determinar se os planos de recuperação de desastres devem ser lançados e quais em particular devem ser invocados. Essas atividades devem ser cuidadosamente coordenadas com provedores de serviços em nuvem.

Se os planos de DR forem invocados, as atividades de resposta a incidentes podem ser reduzidas ou encerradas, dependendo do incidente, permitindo o lançamento dos planos de DR. O uso de um provedor de nuvem também pode ajudar a reduzir as atividades de resposta a incidentes, porque o provedor de nuvem deve ser ativado no início do processo.

Esta seção define os critérios para lançar o plano, coordenando com o provedor de nuvem, quais dados são necessários e quem faz a determinação.

Incluídos nesta parte do plano devem estar áreas de reunião para funcionários (principais e suplentes), procedimentos para notificar e ativar membros da equipe de DR e provedores de nuvem e procedimentos para retirar o plano se a administração determinar que a resposta do plano de DR não é necessário.

Histórico do documento

Forneça uma seção listando as datas e revisões do documento do plano. Deve incluir as datas das revisões, o que foi revisado e quem aprovou as revisões. Localize esta seção na frente do plano.

Procedimentos

Depois que o plano for lançado e se os provedores de nuvem também tiverem sido notificados, as equipes de DR e as equipes de provedores de nuvem prosseguirão com as atividades de resposta e recuperação conforme especificado nos planos. Quanto mais detalhado for o plano, maior a probabilidade de o ativo de TI afetado ser recuperado e retornar à operação normal.

É essencial que o(s) provedor(es) de nuvem conheça(m) suas funções durante o incidente. Aprimore os planos de DR com informações e procedimentos de recuperação relevantes obtidos do(s) provedor(es) de nuvem. Coordene de perto com os provedores de nuvem enquanto desenvolve planos de DR para garantir que eles tenham procedimentos de emergência documentados.

Apêndices

Localizados no final do plano, podem incluir inventários de sistemas, inventários de aplicativos, inventários de ativos de rede, contratos e acordos de nível de serviço, dados de contato do provedor de nuvem (e outros fornecedores) e qualquer documentação adicional que facilite a recuperação.

Próximas atividades

Uma vez concluídos os planos de DR, eles estão prontos para serem exercidos. Exercer planos de DR ao usar um provedor de serviços de nuvem é particularmente importante, porque o provedor de nuvem terá a responsabilidade de recuperar sistemas e dados críticos. Este processo determinará se os sistemas e dados podem ser efetivamente recuperados e devolvidos ao serviço conforme planejado.

Paralelamente a essas atividades, existem três atividades adicionais: conscientização dos funcionários, treinamento dos funcionários e gerenciamento de registros. Isso é essencial porque garante que os funcionários estejam totalmente cientes dos planos de DR e suas responsabilidades em caso de desastre, e que os membros da equipe de DR e os representantes do serviço de nuvem tenham sido treinados em suas funções e responsabilidades conforme definido nos planos.

E como o planejamento de DR gera uma quantidade significativa de documentação, as atividades de gerenciamento de registros e gerenciamento de mudanças também devem ser iniciadas. Isso é especialmente importante ao usar um provedor de serviços em nuvem e garantirá que os clientes estejam totalmente cientes do que o provedor deve fazer.

Obtenha o máximo possível de documentação do provedor para manter-se em sincronia com suas atividades. Certifique-se de coordenar com o gerenciamento de registros da empresa e as atividades de gerenciamento de mudanças durante o planejamento de DR.

Resumo

Este artigo demonstrou a importância de desenvolver estratégias de DR, especialmente ao usar provedores de serviços em nuvem, como traduzi-los em planos de DR e atividades de resposta a incidentes e definir os componentes de um plano de DR e o conteúdo de cada um. Estratégias de DR totalmente definidas, baseadas em vários fatores, especialmente ao trabalhar com provedores de nuvem, são essenciais ao desenvolver planos de recuperação de desastres.

Planejamento de recuperação de desastres na era da nuvem: definição de estratégia e desenvolvimento de planos

Inclua RPO e RTO na estratégia de DR

RPO/RTO e a nuvem

Estratégia e planos detalhados no processo de planejamento de DR

Definição da estratégia

Fatores-chave na definição da estratégia de DR

Traduzindo estratégias em planos de DR

Desenvolvimento de planos de DR

Resposta a incidentes

A estrutura do plano de DR

Próximas atividades

Resumo

Leia mais sobre o planejamento de recuperação de desastres

What Features Matter in a Biking Action Camera?

Action Camera Stabilization and Video Quality Guide

Is a Phone Gimbal Worth It for Android Creators?