Comme indiqué dans le premier article de cette série, les stratégies et procédures de reprise après sinistre informatique (DR) aident les entreprises à protéger leurs investissements dans les systèmes et infrastructures informatiques.
La mission essentielle de DR est de ramener les opérations informatiques à un niveau de performance acceptable le plus rapidement possible après un événement perturbateur.
Ainsi, à l'issue d'une évaluation des risques (RA) et d'une analyse de l'impact sur l'entreprise (BIA), nous devons examiner les services informatiques critiques nécessaires pour soutenir les activités commerciales critiques de l'organisation.
Dans cet article, nous verrons comment définir une stratégie de reprise après sinistre et développer des plans de reprise après sinistre détaillés.
Intégrer le RPO et le RTO dans la stratégie DR
Avant d'examiner en détail la stratégie et la planification DR, nous devons prendre en compte deux paramètres essentiels, à savoir l'objectif de temps de récupération (RTO) et l'objectif de point de récupération (RPO).
Selon la norme ISO/IEC 27031:2011, la norme mondiale pour la reprise après sinistre informatique (appelée technologie de l'information et de la communication, ou TIC, dans la norme), le RTO est "la période de temps pendant laquelle les niveaux minimaux de services et /ou les produits et les systèmes, applications ou fonctions de support doivent être récupérés après une interruption ».
En attendant, le RPO est "le moment auquel les données doivent être récupérées après qu'une interruption s'est produite". Ces deux métriques sont nécessaires pour définir les stratégies DR.
RPO/RTO et le cloud
Notez que ces deux métriques sont affectées par l'utilisation de services basés sur le cloud et les considérations de cybersécurité.
Par exemple, le RTO d'un centre de données sur site peut être plus facile à calculer, car toutes les opérations se déroulent sur le site même de l'organisation.
En revanche, lorsque les opérations informatiques sont déchargées vers des services basés sur le cloud, le RTO doit être fourni par le fournisseur de cloud, qui peut ou non être en mesure d'offrir une valeur acceptable. Il en va de même lorsque les données se trouvent dans un service cloud.
Les systèmes de stockage de données sur site facilitent la prise en charge des valeurs RPO, tandis que les fournisseurs de stockage hors site basés sur le cloud peuvent ne pas être en mesure d'offrir un RPO fiable. Ces deux préoccupations font qu'un accord de niveau de service (SLA) solide est fortement recommandé, car il définit les niveaux de performance convenus que le tiers doit prendre en charge.
Stratégie et plans détaillés dans le processus de planification de la reprise après incident
La figure 1 décrit les étapes du cycle de vie de la reprise après sinistre informatique et est adaptée de la norme ISO 27031:2011. La figure montre qu'en plus de l'élaboration de la stratégie, des activités supplémentaires doivent être envisagées avant que des plans de reprise après sinistre puissent être élaborés.
Par exemple, une stratégie de reprise après sinistre informatique est un élément essentiel du processus global de DR. C'est notamment un élément important à examiner lors des audits, son développement est donc essentiel.
Une analyse des écarts, qui peut être effectuée après les activités d'évaluation des risques et d'analyse de l'impact sur l'entreprise si nécessaire, permet d'identifier les domaines à améliorer susceptibles d'améliorer le processus global de planification de la reprise après sinistre.
Les critères de performance de la technologie peuvent être identifiés à partir des BIA, des RA et des analyses des écarts, et seront pris en compte dans les plans de reprise après sinistre. Ces activités peuvent également identifier les ressources nécessaires pour atteindre les niveaux de performance souhaités. Les BIA et les RA doivent également tenir compte des ressources humaines, non seulement lors d'un événement perturbateur, mais également pendant les opérations normales.
Définition de la stratégie
Une fois que les systèmes et fonctions critiques et les RTO et RPO ont été établis et approuvés, l'étape suivante consiste à définir des stratégies pour répondre aux incidents perturbateurs lorsqu'ils se produisent .
La norme ISO 27031 stipule : "Les stratégies doivent définir les approches pour mettre en œuvre la résilience requise afin que les principes de prévention, de détection, d'intervention, de récupération et de restauration des incidents soient mis en place."
Les stratégies définissent « ce » qui doit être fait lors de la réponse à un incident, tandis que les plans décrivent « comment » les activités de réponse et de récupération seront effectuées.
Une fois que les systèmes critiques, les données, les réseaux, les éléments de cybersécurité et les entreprises de services cloud ont été identifiés, utilisez l'exemple du tableau 1 comme point de départ pour aider à formuler les stratégies nécessaires pour les protéger.
Les facteurs à prendre en compte lors de l'élaboration d'un tel tableau peuvent inclure les budgets ; le point de vue de la direction sur les risques ; les problèmes de cybersécurité; disponibilité des ressources, en particulier des services cloud ; coûts par rapport aux avantages ; contraintes humaines; contraintes technologiques; et les exigences réglementaires.
Facteurs clés dans la définition de la stratégie DR
Les points suivants sont importants lors de l'élaboration de stratégies DR, en particulier lorsque l'on envisage l'utilisation de services basés sur le cloud.
Considérations relatives aux personnes
Parmi les principaux problèmes figurent la disponibilité du personnel et/ou des sous-traitants, les besoins de formation du personnel et des sous-traitants, la duplication des compétences essentielles afin qu'il puisse y avoir un principal et au moins un remplaçant, la documentation disponible à utiliser par le personnel et le suivi. pour assurer la rétention des connaissances du personnel et des sous-traitants.
L'utilisation de services cloud introduit des considérations supplémentaires, telles que la sécurité des données et des systèmes, les qualifications du personnel du fournisseur de cloud, la possibilité que des employés malveillants du cloud endommagent ou volent les ressources des clients, la volonté des représentants du fournisseur de cloud de répondre honnêtement aux questions et la capacité du personnel du fournisseur de cloud à répondre aux exigences des clients.
Installations physiques
Ici, nous devons tenir compte de la disponibilité d'espaces de travail alternatifs sur le même site, dans un autre site de l'entreprise, dans un lieu fourni par un tiers, au domicile des employés et dans une installation de travail transportable (telle qu'une remorque équipée à l'espace de travail).
Il est également important de prendre en compte la sécurité du site, les procédures d'accès du personnel, les badges d'identification et l'emplacement de l'espace alternatif par rapport au site du bureau principal. Il peut ne pas être possible de visiter physiquement les installations des fournisseurs de cloud, et les systèmes et données des clients peuvent être stockés dans plusieurs centres de données. Les utilisateurs doivent donc être prêts à faire confiance aux fournisseurs de cloud pour protéger leurs actifs dans des centres de données sécurisés et respectueux de l'environnement.
Considérations technologiques
Cela inclut des éléments tels que l'accès à un espace d'équipement correctement configuré pour les systèmes (par exemple, des planchers surélevés), un chauffage, une ventilation et une climatisation (CVC) appropriés, une alimentation électrique principale suffisante, une infrastructure voix et données appropriée, la distance d'une technologie alternative zone à partir du site principal, la dotation en personnel sur un autre site technologique, la disponibilité des technologies de basculement (vers un système de secours) et de restauration (retour aux opérations normales) pour faciliter la reprise, la nécessité de prendre en charge les systèmes hérités et les capacités de sécurité physique et de l'information à le site alternatif.
Chacun de ces problèmes doit être soigneusement traité lors de l'utilisation d'un fournisseur de services cloud. Il est conseillé de les inclure dans les accords de niveau de service (SLA) si possible.
Considérations relatives aux données
Ici, nous devons inclure une sauvegarde rapide des données critiques dans une zone de stockage sécurisée conformément aux exigences RTO/RPO, aux méthodes de stockage des données (par exemple, disque, bande, optique), aux exigences de connectivité et de bande passante pour garantir toutes les données critiques peuvent être sauvegardées conformément aux délais RTO/RPO, aux capacités de protection des données sur un autre site de stockage et à la disponibilité de l'assistance technique de fournisseurs de services tiers qualifiés.
Ces considérations sont essentielles lors de l'utilisation d'un fournisseur de services cloud, en particulier ses ressources de stockage et d'accès aux systèmes et données des clients, la manière dont ils protègent leurs périmètres réseau contre les cyberattaques, la manière dont ils répondent aux exigences RTO/RPO des clients et la manière dont ils testent leur propres plans de reprise après sinistre.
Considérations relatives aux fournisseurs
Ici, nous devons identifier et passer des contrats avec des fournisseurs principaux et alternatifs pour tous les systèmes et processus critiques, et même l'approvisionnement en personnel. Les domaines clés où les fournisseurs alternatifs seront importants incluent le matériel (serveurs, racks), l'alimentation (batteries, onduleurs, protection de l'alimentation), les réseaux (services de réseau voix et données), la réparation et le remplacement des composants et les entreprises de livraison multiples (Fedex et UPS) .
Beaucoup de ces problèmes peuvent être atténués en faisant appel à un fournisseur de services cloud, mais il est toujours prudent de conserver des sauvegardes des données et des applications critiques et d'avoir des réserves de composants système critiques.
Politiques et procédures
Les étapes clés ici incluent la définition de politiques de reprise après sinistre informatique, leur approbation par la direction générale, la définition de procédures étape par étape (par exemple, pour lancer la sauvegarde des données vers des emplacements alternatifs sécurisés), la relocalisation des opérations vers un autre espace , la récupération des systèmes et des données sur les sites alternatifs et la reprise des opérations sur le site d'origine ou sur un nouvel emplacement. Lorsque vous utilisez des services cloud, assurez-vous de prendre en compte les considérations cloud dans toutes les politiques DR et les documents de procédure associés.
Enfin, assurez-vous d'obtenir l'approbation de la direction pour les stratégies, politiques et procédures prévues. Soyez prêt à démontrer que les stratégies proposées s'alignent sur les objectifs commerciaux et les stratégies de continuité des activités de l'organisation.
Transformer les stratégies en plans de reprise après sinistre
L'étape suivante après avoir terminé les stratégies de reprise après sinistre consiste à les traduire en plans et procédures de reprise après sinistre. Pour montrer comment cela peut être fait, le tableau 1 a été révisé dans le tableau 2, qui suit.
Il montre les systèmes critiques et les menaces associées, la stratégie de réponse et les (nouvelles) étapes d'action de réponse, la stratégie de récupération et les (nouvelles) étapes d'action de récupération. L'exécution de cette étape permet de définir des étapes d'action de haut niveau qui font partie du plan de reprise après sinistre.
Utilisez le tableau 2 pour développer les étapes d'action de haut niveau en procédures détaillées étape par étape, si nécessaire. Assurez-vous qu'ils sont liés dans le bon ordre.
Élaboration de plans de reprise après sinistre
Les plans de reprise après sinistre fournissent un processus étape par étape pour répondre à un événement perturbateur.
Les procédures doivent garantir un processus facile à utiliser et reproductible pour récupérer les actifs informatiques endommagés et les remettre en fonctionnement normal le plus rapidement possible. Si la relocalisation du personnel vers un site chaud tiers ou un autre espace alternatif est nécessaire, des procédures doivent être élaborées pour ces activités. Les étapes d'utilisation des ressources de sauvegarde basées sur le cloud doivent être élaborées en coordination avec le fournisseur de cloud, afin que les procédures soient exécutées dans le bon ordre.
Envisagez également de revoir les normes mondiales ISO/IEC 24762 (Directives pour les services de reprise après sinistre des technologies de l'information et des communications) et ISO/IEC 27035 (Activités de réponse aux incidents) lors de l'élaboration des plans de reprise après sinistre.
Réponse aux incidents
En plus d'utiliser les stratégies développées précédemment, les plans de reprise après sinistre informatique doivent également inclure un processus de réponse aux incidents (ISO/IEC 27035) pour aborder les phases initiales de l'incident et des mesures à prendre.
Comme dans la figure 2, les actions de réponse aux incidents doivent précéder les actions de reprise après sinistre. Lorsque des services cloud sont utilisés, travaillez avec le fournisseur pour intégrer ses activités de réponse aux incidents dans le plan de reprise après sinistre.
Remarque : La gestion des urgences a été incluse dans la figure 2, car elle représente les activités qui peuvent être nécessaires pour faire face à des situations où des personnes sont blessées ou à des situations telles que des incendies qui doivent être traitées par les pompiers locaux et d'autres premiers intervenants.
La structure du plan DR
La section suivante détaille le cadre et les composants d'un plan DR basé sur les normes ISO 27031 et ISO 24762.
Les meilleurs plans de reprise après incident commencent souvent par une ou deux pages résumant les étapes d'action clés (par exemple, où rassembler les employés s'ils sont forcés d'évacuer le bâtiment) et des listes de contacts clés (par exemple, fournisseurs de cloud, autres zones de travail) et leurs coordonnées pour faciliter l'autorisation et le lancement du plan.
Présentation
Après les pages d'urgence initiales, les plans de reprise après sinistre comportent une introduction qui inclut l'objectif et la portée du plan. Cette section doit préciser qui a approuvé le plan, qui est autorisé à l'activer et inclure une liste de liens vers tout autre plan et document pertinent (par exemple, les politiques).
Rôles et responsabilités
La section suivante doit définir les rôles et responsabilités des membres de l'équipe DR, leurs coordonnées, les limites de dépenses (par exemple, si l'équipement doit être acheté) et les limites de leur autorité en cas de catastrophe. Lorsque des services cloud sont utilisés, ces mêmes paramètres doivent être définis pour le fournisseur de cloud.
Réponse aux incidents
Le processus de réponse aux incidents identifie la présence soudaine d'une situation anormale (par exemple, alerté par diverses alarmes au niveau du système), évalue rapidement la situation (et tout dommage) pour déterminer rapidement sa gravité, tente de contenir l'incident et de le maîtriser, et informe la direction, les fournisseurs de services cloud et les autres parties prenantes clés.
Activation du forfait
Sur la base des résultats des activités de réponse aux incidents, l'étape suivante consiste à déterminer si des plans de reprise après sinistre doivent être lancés, et lesquels en particulier doivent être invoqués. Ces activités doivent être soigneusement coordonnées avec les fournisseurs de services cloud.
Si des plans DR doivent être invoqués, les activités de réponse aux incidents peuvent être réduites ou interrompues, en fonction de l'incident, ce qui permet le lancement des plans DR. L'utilisation d'un fournisseur de cloud peut également aider à réduire les activités de réponse aux incidents, car le fournisseur de cloud doit être activé tôt dans le processus.
Cette section définit les critères de lancement du plan, la coordination avec le fournisseur de cloud, les données nécessaires et qui prend la décision.
Cette partie du plan doit inclure des zones de rassemblement pour le personnel (principal et suppléant), des procédures de notification et d'activation des membres de l'équipe DR et des fournisseurs de cloud, et des procédures pour annuler le plan si la direction détermine que la réponse du plan DR n'est pas nécessaire.
Historique des documents
Fournissez une section répertoriant les dates et les révisions des documents de plan. Il doit inclure les dates des révisions, ce qui a été révisé et qui a approuvé les révisions. Repérez cette section au début du plan.
Procédures
Une fois le plan lancé, et si les fournisseurs de cloud ont également été informés, les équipes DR et les équipes des fournisseurs de cloud procèdent aux activités d'intervention et de récupération comme spécifié dans les plans. Plus le plan est détaillé, plus il est probable que l'actif informatique concerné sera récupéré et remis en fonctionnement normal.
Il est essentiel que le ou les fournisseurs de cloud connaissent leur rôle pendant l'incident. Améliorez les plans de reprise après sinistre avec des informations et des procédures de récupération pertinentes obtenues auprès du ou des fournisseurs de cloud. Coordonnez-vous étroitement avec les fournisseurs de cloud tout en élaborant des plans de reprise après sinistre pour vous assurer qu'ils disposent de procédures d'urgence documentées.
Annexes
Situés à la fin du plan, ceux-ci peuvent inclure des inventaires de systèmes, des inventaires d'applications, des inventaires d'actifs réseau, des contrats et des accords de niveau de service, des coordonnées de fournisseur de cloud (et d'autres fournisseurs) et toute documentation supplémentaire qui facilitera la récupération.
Prochaines activités
Une fois les plans de DR terminés, ils sont prêts à être exercés. L'exercice de plans de reprise après sinistre lors de l'utilisation d'un fournisseur de services cloud est particulièrement important, car le fournisseur de cloud sera responsable de la récupération des systèmes et des données critiques. Ce processus déterminera si les systèmes et les données peuvent être efficacement récupérés et remis en service comme prévu.
Parallèlement à ces activités, trois activités supplémentaires : la sensibilisation des employés, la formation des employés et la gestion des dossiers. Celles-ci sont essentielles car elles garantissent que les employés sont pleinement conscients des plans de reprise après sinistre et de leurs responsabilités en cas de sinistre, et que les membres de l'équipe de reprise après sinistre et les représentants du service cloud ont été formés à leurs rôles et responsabilités tels que définis dans les plans.
Et étant donné que la planification de la reprise après incident génère une quantité importante de documentation, des activités de gestion des enregistrements et de gestion des modifications doivent également être lancées. Ceci est particulièrement important lors de l'utilisation d'un fournisseur de services cloud et garantira que les clients sont pleinement conscients de ce que le fournisseur doit faire.
Obtenez autant de documentation que possible sur les fournisseurs pour rester en phase avec leurs activités. Assurez-vous de coordonner avec les activités de gestion des enregistrements et de gestion des modifications de l'entreprise lors de la planification de la reprise après sinistre.
Résumé
Cet article a démontré l'importance de développer des stratégies DR, en particulier lors de l'utilisation de fournisseurs de services cloud, comment les traduire en plans DR et activités de réponse aux incidents, et a défini les composants d'un plan de reprise après sinistre et le contenu de chacun. Des stratégies DR entièrement définies, basées sur de nombreux facteurs, en particulier lorsque vous travaillez avec des fournisseurs de cloud, sont essentielles lors de l'élaboration de plans de reprise après sinistre.