产品文档

备份和容灾技术白皮书

2 技术概述

  当前,IT信息系统已经渗透到各行各业的业务建设之中。用户业务系统的稳定可靠运行是用户业务发展的重要基础。京东云通过不断技术积累,并且通过搭建可靠的基础设施平台,为用户提供数据备份和系统容灾技术保障,成为行业中最值得信赖的云计算厂商。

2.1 备份和容灾技术发展概况

  备份和容灾技术起源于人类的技术发展,在各种工程、系统建设过程中都有广泛应用。中国古代著名水利工程都江堰通过分水鱼嘴和宝瓶口等结构的联合运用,实现了抗洪容灾的功能。

  由于IT信息系统在不受保护的情况下非常脆弱,比如断电即刻导致系统瘫痪,故IT信息系统是备份和容灾技术的重要应用领域。对于政府、组织和企业用户,一旦重要IT信息系统停摆,业务体系将受到巨大冲击。据University of Minnesota的研究,当发生重大数据丢失事故后,半数以上的公司会在两三年内倒闭。因此,IT信息系统的备份和容灾技术应用,越来越重要,也越来越被重视,国家和行业标准中规定了明确的技术要求。

  备份和容灾在IT信息系统中主要指数据备份和系统容灾两项技术。数据备份技术是系统容灾技术的重要支撑,但数据备份技术也可以单独在系统中实施。最早在数据备份和系统容灾技术上有重大突破的是美国。早在40年前SunGard公司就在美国的费城建成了数据备份和系统容灾中心,用于保护金融业务系统。

  当今,京东云紧跟数据备份和系统容灾技术发展的前沿,将既符合中国国情又遵循业界实践经验的完整数据备份和系统容灾解决方案贡献给用户。京东云重视每一个用户的业务长期稳定发展,将通过易用的工具、成熟的方案和可靠的服务提供最符合用户期望和利益的业务连续性保护。

  系统故障原因主要有外部因素和内部因素,根据不同的类型可以分为异常事件、事故事件和灾难事件等三个级别。异常事件是导致系统按照偏离设计的模式运行的系统内部原因,通常会在某些条件下触发并导致系统出现问题。事故事件是导致系统出现较严重问题的内部或外部原因。灾难事件是超出系统建设和维护人员控制能力并导致系统出现大范围严重问题的外部原因。基于业界的长期经验积累,通常异常事件、事故事件和灾难事件发生的概率逐级减小,但造成的损失和需要防止其造成持续损失所需要投入的成本逐级增大。

  如上图所示,根据京东云多年的项目建设和维护经验,故障原因的类型、事件发生的概率和系统保护所需建设和维护成本的关系为一个分段图。为了保护系统最基本的可靠运行,需要投入不低于最低成本线的成本。为了实现更好的系统保护,需要投入更高的成本。每提升一个系统的保护级别,都会产生成本的跃升。在能够抵抗同等规模故障的系统中,根据技术选型的不同会产生不同的建设和运维成本,不同的技术方案也同时对系统的稳定性、安全性和性能等关键指标要素产生影响。

2.2 京东云数据备份技术

  数据备份技术的核心是将生产环境中的在线数据通过技术方法备份到离线环境。当系统发生问题,则技术人员能够基于备份数据将数据恢复到理想的状态。备份数据并不用于业务生产,但保留关键版本的备份数据对业务系统的长期有效运行具有非常重要的意义。

  京东云在向用户提供丰富的云资源产品的同时,深刻总结数据备份领域的技术经验,对用户开放技术能力,并进行数据备份技术赋能。根据业务场景和备份环境的不同,京东云提供两种主要的数据备份方式:一是支持在云平台上建立数据备份环境并将用户的业务系统核心数据安全可靠地备份到云平台上。二是支持将数据通过网络专线或VPN的方式备份到用户自有的数据中心。

  京东云支持京东云平台或用户自建数据中心的数据库、文件、对象存储备份。通过网络专线或VPN在用户的业务生产环境和数据备份环境之间搭建安全可靠的网络数据传输通道。若用户的业务生产环境和数据备份环境都搭建在京东云公有云上,则能够在业务生产环境和数据备份环境之间搭建高带宽网络通道,实现数据安全高速传输。京东云通过部署数据备份服务或数据备份工具,使数据备份过程简单高效。并提供强大的资源监控工具,当系统出现问题,技术人员能够及时准确了解情况,并进行快速稳妥处理。

  在平台支持方面,京东云支持用户将数据备份到京东云公有云、私有云、专有云和混合云平台上。还支持用户将数据备份到用户自有IDC中或第三方公有云上,为用户带来极大方便,提供让用户满意的数据备份解决方案。

  在数据备份技术方面,京东云支持数据库的迁移和复制、对象存储中数据的迁移和复制、文件系统中的文件迁移,并支持数据传输加密保护。利用云平台提供的快照功能,用户能够快速将数据恢复到所需的版本。京东云也提供完善的资源监控系统,使用户能够完全掌握数据备份过程中系统的运行情况,并在发生异常时发出报警提示。

2.3 京东云系统容灾技术

  系统容灾技术的核心是当信息系统遭遇灾难并导致严重故障时能够保护客户数据安全和保持关键核心业务稳定。能够造成系统严重故障的灾难一般有地震、水灾、火灾、军事袭击、不当市政施工等,这些灾难在社会运行过程中均有一定发生的概率,因此在关键系统设计和建设时采取系统容灾技术进行有效保护非常重要。

  京东云支持对系统的数据级容灾和应用级容灾。数据级容灾支持对客户的数据进行备份、同步复制或异步复制,维护客户数据安全,确保严重故障发生时关键数据可用和可恢复。应用级容灾支持建立与业务生产环境相匹配的备份系统,保证故障发生时及时将业务流量切换到备份环境,使业务系统持续对外提供服务。

  京东云能够根据客户系统容灾需求并基于系统架构制定有效的容灾方案。通过丰富多样的系统容灾方案支持,提供多种系统容灾能力,满足客户的系统容灾需求。

  • 冷备:支持数据的定期备份,并利用未运行的系统作为生产系统的备份环境,当大范围系统故障发生时启动备份系统支撑业务系统运行。

  • 温备:支持数据的定期备份或周期性同步,利用周期性运行的系统作为生产系统的备份环境,备份环境中的系统定期开启并进行必要的系统同步操作。

  • 热备:支持数据的定期备份或数据复制,在容灾环境建立最小化运行的热备份系统,当大范围系统故障发生时容灾环境接替原生产环境提供服务,并根据业务情况扩展资源。

  • 双/多活:支持数据的同步复制,建立两个或多个相互隔离的业务生产环境,并保持各个业务生产环境的数据一致性。

  利用京东云底层资源的容灾能力,支持多种系统容灾架构,充分满足不同行业客户的实际业务需求。

  • 跨故障域容灾:京东云提供故障域支持,实现了在同一可用区内相互独立的供电、网络设施等基础设施建设。

  • 跨可用区容灾/双活:利用京东云的负载均衡技术,客户能够便捷地实现跨可用区系统容灾,或实现两个可用区内双活系统架构。京东云在同一地域内的可用区之间相隔数十千米,采用相互独立的双路供电系统,能够满足大多数客户的容灾架构需求。

  • 两地三中心架构容灾:通过在不同的地域搭建业务系统,使系统获得极大的抗灾能力。

  • 异地多活架构容灾:在多个可用区和多个地域建立同时运行的业务生产系统,在提升系统大范围抗灾能力的同时,能够保障系统最佳的灾后恢复速度。

不同的容灾系统架构对应不同的系统容灾能力和灾难发生后的系统恢复效率,同时也会产生不同的系统建设和维护成本。京东云支持客户根据行业标准和实际需求选择最适合的容灾架构。

2.4 平台工具和服务

  京东云提供专业的JD Cloud Mesh数据备份和系统容灾工具集,如下图所示,全面支持客户快速便捷实现数据备份和系统容灾。支持数据库迁移、OSS(对象存储)迁移、文件迁移,同时支持OSS复制和数据库复制。支持传输加密功能,为数据传输提供可靠的安全保障。支持主机迁移、数据级容灾、应用级容灾,能够全面提升客户系统的抗灾能力,并实现快速的灾后恢复。支持对业务系统和容灾系统进行全方位的资源可视化监控,能够及时发现故障并进行有效的预警。

  在JD Cloud Mesh基础之上,京东云为客户提供多层次平台服务,主要包括备份和容灾系统建设和运维中的基础云服务、网络支撑、存储支撑。

  基础云服务。京东云根据安全性、数据规模、资源扩展性等客户需求,提供公有云、私有云、专有云、混合云等多种可选的备份容灾环境,通过专业的技术服务帮助客户高效合理的构建云计算环境下的业务系统和备份容灾系统,并提供可靠的后期技术保障支持。

  网络支撑。京东云通过支持VPN、网络专线、负载均衡、DNS等多种网络技术,帮助客户在建设备份和容灾系统时获得可靠的网络技术保障,确保数据传输的安全和灾后数据流量切换的及时有效。

  存储支撑。京东云通过支持多种RDS(关系型云数据库服务)、海量对象存储OSS和大容量高性能云硬盘,为客户提供可靠的数据备份环境,并基于多副本机制确保客户数据不会丢失。

2.5 安全保障

  京东云在实现数据备份功能的同时,还通过有效的技术手段确保备份过程和恢复过程安全可靠。

  京东云遵循业界先进的安全标准保障客户系统和数据全生命周期安全,采取平台安全保护措施、安全管理和信息安全技术等手段进行全面安全体系建设。京东云通过了中国信息通信研究院可信云服务认证,标志着京东云成为国家认可的安全、可信的云服务商。还通过了公安部信息系统安全三级等保认证,标志着京东云符合国家在信息系统安全方面的技术和管理要求,能够应对信息安全威胁。同时京东云还通过了数十项资质认证,充分保障云平台和客户数据的安全。

  云平台安全保障方面,具有T3级的数据中心,提供高水平的系统运维,确保硬件设备、云平台虚拟化层、系统监控的安全可靠。

  数据安全方面,系统通过网络安全、数据安全和数据可靠性保障等措施确保数据备份过程的安全。在网络传输过程中,支持建设网络专线保障数据安全快速传输,也支持搭建VPN实现数据加密传输,并通过SSL数字证书进行身份认证,有效保护数据在网络传输过程中的安全。在数据安全保护方面,利用有效的身份认证和访问控制机制,确保只有合法客户才能访问在权限范围内的数据。利用静态数据加密技术,保护在数据备份端落地存储的数据,满足在公有云等开放环境中也能确保客户数据安全。利用云平台提供的组合隔离技术,防止数据被非法访问。在数据的可靠性保障方面,支持数据库和对象存储的数据复制和多副本机制,并通过数据的完整性和一致性校验确保数据不会丢失。

  在系统可用性保障方面,支持云主机热迁移、高可用组、跨可用区高可用、跨地域高可用,全面保障系统的长期稳定运行。

更新时间:2019-12-31 18:32:06