11项数据中心容灾计划清单

柏苑五金保养


菲尔·戈弗雷头像- Park Place Technologies Solutions Architect
菲尔·戈弗雷 2022年12月19日

为您的组织制定数据中心灾难恢复计划? 确保在你的计划中包括了这些重要的项目, 或者你可能会遇到意想不到的惊喜.

灾难恢复计划(DRPs)存在于世界各地的文件中. 可悲的是,其中许多都是作为机械练习的一部分而开发的,仅仅因为“IT应该有一个DRP”.“许多组织从一开始就没有重新考虑他们在数据中心位置的灾难恢复计划, 更不用说测试它所实施的流程了.

灾难比许多IT专业人士预期的更普遍,性质也更多样化. 我们每个人都可以评估自己对热带风暴的抵抗力, 龙卷风, 或者海啸引发的核泄漏, 而且(取决于地点)认为这种灾难发生的可能性很低, 从而得出DR计划不重要的结论. 但是在停电的情况下会发生什么呢, 严重的网络故障, 核心设备被盗, 或者是由于空调故障导致的数据中心温度飙升? 是你的 它的弹性 符合标准?

创建有效、准确的数据中心恢复计划是实现这一目标的关键. 然而,制定一个有效的计划需要做很多事情. 我们已经创建了一个IT灾难恢复计划清单,以确保您能够最大限度地减少风险和停机时间,同时最大限度地延长正常运行时间.

illustration-of-data-center

什么是数据中心恢复计划?

数据中心恢复计划(DRP)是一个战略大纲,说明您打算做些什么来保持您的业务领先于可能导致数据丢失的主要问题, 权力, 或连接.

重要性(为什么需要灾难恢复计划?)

那么,为什么拥有数据中心灾难恢复计划很重要呢? 简单地说, 没有这样的蓝图, 防止不必要的停机或数据丢失变得很困难.

好处

拥有数据中心灾难恢复计划的好处应该是显而易见的——您能够避免或最小化与自然灾害相关的停机时间, 硬件故障,以及其他威胁. 您可以在连接丢失时快速恢复连接并防止数据丢失.

有一个DRP可能是糟糕的一个月和破产的区别.

灾难恢复计划目标

灾难恢复计划就是针对您的组织目前面临的真正威胁采取积极主动的立场, 包括降低风险, 正常运行时间最大化, 保持行业合规性. 您的DRP应该考虑所有这些可能性,并提供可以实现的解决方案,以便在面对任何禁用事件时进行恢复.

最小化风险

任何灾难恢复计划的主要目标之一是最小化风险. 然而, 要做到这一点, 你首先需要了解你的风险等级, 以及您的数据中心面临哪些威胁. 风险评估是关键的第一步.

正常运行时间最大化

正常运行时间是对数据中心可用性的度量. 停电, 硬件故障, 而影响连通性的网络故障都会降低这种测量. 您的灾难恢复计划应该着重于通过几种方式最大化正常运行时间, 从切换到未受灾难影响的替代站点,到快速修复受损硬件.

保持行业合规性

面对灾难,你必须遵守哪些规定, 硬件故障, 或者失去连接? 你需要做些什么来确保遵守?

IT灾难恢复计划清单

DRP进程的第一步可能无法在DRP本身的页面中找到. 而, 它们包含业务连续性计划(BCP)的一些元素, 哪一个包含DRP, 以便更好地了解您的DRP在组织计划方案中的位置. 灾难恢复计划在出现某种问题时启动, 并主要处理恢复澳门最新网站游戏, 而BCP将纳入风险和业务影响评估, 还有预防措施.

这些目标设定练习和业务审查有助于确保所有利益相关者对成功恢复的定义达成一致,并且企业在准备和恢复方面进行了充分的投资以使其发生. 它们还确保从一开始就采用数据中心灾难恢复最佳实践.

DRP和相关流程需要采取以下关键行动.

1. 评估停机容忍度

在你计划恢复之前,你需要知道期望是什么. 对于一家依赖实时的公司来说, 关键任务软件, 几秒钟的停机时间代价高昂, 因此,复苏预期和准备投资将会很高. 对于小型或不太注重技术的企业, 长时间的中断可能是可以接受的,一个不那么健壮和昂贵的DR解决方案可能就足够了.

当然, 网络停机容忍度 often changes over time; e.g., 随着业务的发展, 产品或澳门最新网站游戏不断发展, 或者有更高期望的客户加入. 更新DR团队对期望的理解,以便对计划进行相应的修改.

2. 把库存

在做其他事情之前,盘点是很重要的. 什么系统到位? 如果系统宕机,可能会出现什么情况? 你的组织 实现数据中心冗余 以帮助防止电源中断或硬件故障?

illustration-of-data-center-inventory-count

3. 确定缺陷

您还需要了解数据中心的弱点. 你的战略弱点是什么? 一些 顶级数据中心挑战 包括数据中心设计监督, 电源故障, 以及使能源紧张的环境问题.

4. 定义恢复目标

接下来,您需要确定您的RTO和RPO. 让我们为你分析一下:

恢复时间目标(RTO)

您的恢复时间目标(RTO)与恢复应用程序所需的时间量有关.

恢复点目标(RPO)

RPO表示恢复正常操作所需恢复的文件的年龄.

这些恢复指标在本质上与 网络故障指标,如MTBF、MTTR和MTTF.

5. 进行风险评估

对您的数据中心进行全面的风险评估. 你最可能面临的威胁是什么?它们发生的可能性有多大? 不要只是为自然灾害做计划——你面临辐射或爆炸的可能性有多大?

6. 分配角色和职责

数据中心恢复策略的关键部分是确保每个人都了解他们在过程中的角色. 谁对什么负责? 谁领导,谁向谁报告? 有明确定义的角色和责任,并确保你的员工清楚他们.

illustration-teamwork-in-data-center

7. 预防及纾缓措施大纲

在预防和缓解方面,你会采取什么措施? 使用不间断的电源是至关重要的, 但你还在做些什么来减轻你面临的风险呢?

8. 定义灾难恢复站点

灾难恢复站点是存储数据和备用设备的非站点位置,以便在灾难发生时恢复连接和通信. 这些网站在哪里,它们扮演着什么角色?

9. 回应程序大纲

如果发生灾难,您的团队应该遵循哪些程序? 你的人首先应该做什么? 他们下一步应该采取什么措施? 当涉及到沟通时,您的响应程序应该为您的团队提供一个逐步遵循的框架, 数据备份步骤, 灾后活动,如与客户沟通和与供应商打交道.

10. 制定一个危机沟通计划

在灾难中,沟通是必不可少的. 确保你的员工知道谁负责沟通, 需要传达哪些信息, 以及这些交流应该在什么时候进行. 将你的危机沟通计划与你的反应程序和角色/责任相结合,以清晰和理解.

11. 进行练习测试

最后,确保你进行了练习和练习测试. 就像你们班在学校参加消防演习一样, 你的团队需要练习面对潜在的灾难时该怎么做.

Model different types of disasters and throw unexpected events into the mix; missing people from the communication plan, 灾难恢复站点的中断, 这样可以帮助你的团队学会独立思考,并确保当真正的灾难来袭时, 他们能够从容应对.

与值得信赖的全球IT支持领导者合作

当灾难来临时,确保你身边有合适的伙伴! 30多年来,Park Place Technologies一直是值得信赖的IT支持澳门最新网站游戏提供商.

我们的 基础设施管理澳门最新网站游戏 提供了一种奇妙的方式,让您的关键IT系统的健康处于自动驾驶状态. 或者,开始你与我们团队的关系,从 数据中心硬件维护保证 或者像遥控手这样的专业澳门最新网站游戏 扩充资讯科技人员.

立即澳门最新网站游戏的团队,了解我们的IT解决方案组合如何使您的生活更轻松.

菲尔·戈弗雷头像- Park Place Technologies Solutions Architect

作者简介

菲尔•戈弗雷
菲尔·戈弗雷是Park Place Technologies备受尊敬的解决方案架构师. 具有超过25年的相关工作经验, 菲尔正在为IT行业提供现代技术解决方案.