前言
这是中小企业灾备建设的入门级、普及型的文章。其实就是了解下为什么做灾备,有什么可以参考的东西,该从哪里入手。
建设目的
我们不希望灾难发生,也不希望任何故障出现。然而灾难的出现往往是突然的,预先不可知的。我们分析在系统运行期间可能出现的灾难大致分为以下几类,生产系统灾备项目的建设目标,也就是为了应对以下几类灾难。
自然灾害:火灾、水灾、雷击、地震等,例如我公司业务所在天津世纪互联数据中心已经经历了一次重大爆炸事故,所幸机房受影响并不严重。
计算机系统故障:
服务器系统故障:
硬件故障:如磁盘、网卡、电源、交换机。
系统故障:操作系统无法启动
机房故障:
机房电源、网络、制冷、火灾等故障,例如我公司机房已经出现多次由于制冷设备故障,需要应急处理的情况。
运营商故障:
注意是机房所在大厦的电力、网络割接等造成的故障,我们也经过了两次大厦电力调整和多次网络割接,所幸并没有影响出现。
人为因素:
由于应用系统设计缺陷、人为误操作和恶意的黑客攻击,导致系统不可用或者数据丢失。
灾备级别
要做灾备首先要确定好目标,也就是要确定要灾备级别,结合公司的具体情况,能够承受多少数据丢失和多长时间的业务恢复时间来进行衡量。
目前可以参考的灾备级别有两个,一个是国际标准SHARE78它将异地灾备的定义为七个级别。另外一个是我国的标准。早在2007年7月,国务院信息化工作办公室有下发了《信息系统灾难恢复规范》(以下简称《规范》),并于2007年11月1日开始正式实施。这是中国灾难备份与恢复行业的第一个国家标准,是各行业进行灾备建设的重要参考性文件。将异地灾备的定义分为以下六个等级。
等级一:基本支持。要求数据备份系统能够保证每周至少进行一次数据备份,备份介质能够提供场外存放。对于备用数据处理系统和备用网络系统,没有具体要求。
等级二:备用场地支持。在满足等级一的条件基础上,要求配备灾难恢复所需的部分数据处理设备,或灾难发生后能在预定时间内调配所需的数据处理设备到备用场地;要求配备部分通信线路和相应的网络设备,或灾难发生后能在预定时间内调配所需的通信线路和网络设备到备用场地。
等级三:电子传输和设备支持。要求每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用通信网络将关键数据定时批量传送至备用场地。配备灾难恢复所需的部分数据处理设备、通信线路和相应的网络设备。
等级四:电子传输及完整设备支持。在等级三的基础上,要求配置灾难恢复所需的所有数据处理设备、通行线路和相应的网络设备,并且出于就绪或运行状态。
等级五:实时数据传输及完整设备支持。除要求每天至少进行一次完全数据备份,备份介质场外存放外,还要求采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地。
等级六:数据零丢失和远程集群支持。要求实现远程实时备份,数据零丢失;备用数据处理系统具备与生产数据处理系统一致的处理能力,应用软件是“集群的”,可实时无缝切换。
由此可见,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,需要根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡),确定业务系统的合理的灾难恢复能力等级。对于多个业务系统,不同业务可采用不同的灾难恢复策略。
那么根据具体情况,我公司之前选择的是先着手实现等级五,然后再向等级六过渡。同时有一些服务是使用等级四的标准。
灾难恢复能力
根据不同的灾难恢复能力,有不同的恢复时间和恢复时间点,我们通常使用RTO和RPO来表述。
RTO:恢复时间目标recovery time objective,灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。
RPO:恢复点目标recoverypoint objective,灾难发生后,系统和数据必须恢复到的时间点要求。
灾备项目建设要素
在明确了灾备建设中灾难恢复能力等级目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。下表是对《规范》中灾备建设内容的总结,我们称之为灾备建设的七要素:
只是一个入门的小知识,不过灾备也是所有运维者都需要关注的一个技术点。
转自:运维社区
国家信息系统灾难恢复规范:
原文链接:中小企业灾备建设及国家灾备规范,转载请注明来源!