产品文档

备份和容灾技术白皮书

4 系统容灾解决方案

4.1 适用场景

  IT信息系统已经成为政府、各种组织和企业业务发展的关键,保障信息系统的稳定运行极为重要,但并非所有的系统都能满足长期稳定有效运行的要求。当系统没有依据客观情况进行合理的容灾设计的时候,会出现以下一些主要问题:

  • 当系统容灾的设计缺少或不规范时,一方面会导致系统不符合国家或行业的规范,另一方面当系统遭遇故障或灾难时会对业务带来巨大安全风险,轻则造成业务的停顿,重则造成企业的消亡。

  • 当容灾设计与实际需求不匹配时,由于大量的资源投入和人员投入,会产生额外的巨大开销,造成资源和人力浪费。

  • 设计不合理的系统容灾系统也可能造成在发生事故或灾难时无法按预定的计划实现系统的恢复,对业务造成重大的冲击。

  • 某些IT信息系统会承载多个客户的业务,不合理的容灾方案很可能在系统遭遇故障或灾难时对系统上承载的业务造成损害,严重时产生法律纠纷。

  京东云基于系统容灾技术的深刻积淀,将系统容灾技术与国家、行业的规范以及客户的具体需求进行全方位的适配,提供性价比高且设计合规、合理的系统容灾解决方案,其适用的主要场景有:

  • 符合国家或行业标准、规范要求。针对政府、金融等多个行业对系统容灾的要求,京东云提供符合标准和规范的系统容灾解决方案,使系统建设和运维符合监管要求。

  • 符合客户的实际需求。针对客户的业务和系统需求,结合京东云的系统容灾实践,提供能够支撑客户业务长久发展的系统容灾方案,帮助客户降低建设和运维成本。

  • 提供长期专业的技术支持。在客户系统运维人力不足的情况下提供长期的系统技术支持,通过定期的故障演练,增强客户系统的抗灾和恢复能力。

4.2 技术架构

  京东云为客户提供系统容灾架构设计、数据级容灾方案、应用级容灾方案及安全保障等全方位的系统容灾技术支持,帮助客户轻松的实现符合业界规范和业务需求的容灾系统。

  基于京东云的公有云、专有云、私有云和混合云等多种云平台的支持,实现客户业务系统的跨故障域、跨可用区容灾,还能实现更高级的两地三中心和异地多活等大型系统容灾方案。

  数据级容灾方面,支持数据库和对象存储的定时备份和实时复制,支持文件的定时备份和手动备份,实现满足客户需求的RPO指标。

  应用级容灾方面,通过主机迁移、系统复制和软件复制,实现业务系统的冗余保护,并通过支持冷备、温备、热备和双/多活技术,实现多种应用容灾。

  在安全保障方面,京东云利用功能完善、覆盖全面的监控系统能够实现快速的系统故障发现和预警,还能通过网络专线、加密传输保护数据传输的安全,并利用SSL数字证书机制确保只有合法用户能够访问关键系统和数据,从而从多个方面确保系统容灾的安全可靠。

4.3 技术方案

  京东云利用云平台技术优势,支持多种系统容灾方案,提供公有云和私有云等不同容灾平台支持,并基于客户的具体需求支持数据级容灾和应用级容灾。

4.3.1 网络架构

  京东云的系统容灾网络架构如下图所示:

  京东云支持客户将业务生产环境备份到京东云公有云或敏捷专有云。

  • 利用公有云云平台进行系统容灾。依托京东云公有云的海量主机和存储资源,能够帮助客户在进行系统容灾建设时和运维时大幅降低资源和管理成本。通过网络隔离和数据隔离技术实现系统容灾环境的租户隔离,确保客户在公有云系统容灾环境下的安全。

  • 利用私有云云平台进行系统容灾。京东云私有云能保障客户系统安全性和数据隐私性,并提供定制化的系统容灾解决方案,可在业务系统大规模故障时支撑业务正常运行。支持为客户实现定制化容灾服务,包括专属的计算资源、存储资源、网络资源、操作系统、数据库、中间件、应用系统等IT资源,保障客户IT系统环境的独立性,完整性及稳定性。

  在数据级容灾方面,利用高速链路复制生产数据库(MySQL、SQL Server、MongoDB等)的全量数据,并利用日志同步增量数据,可以在数据备份的同时,尽可能降低对生产环境性能的影响。对于存储系统中的文件,采用多副本、快照、实时复制等方式实现数据的容灾备份。

  在应用级容灾方面,京东云支持同城双活、两地三中心、异地多活等高级系统容灾架构,支持在热备方案中进行云主机状态的快速同步,也支持利用镜像将数据中心的云主机、物理机备份到云平台。

  利用先进的监控技术对业务生产环境进行实时监控预警,当灾难发生并导致业务生产环境的大规模故障时,监控系统能够及时发现故障并进行报警,管理员可以进行及时处理并将业务流量切换到系统容灾环境,保障业务正常运行。当生产环境恢复后,京东云支持将数据、生产日志及缓存等恢复到生产环境中。

4.3.2 数据级容灾

  京东云通过支持系统的数据级容灾实现低成本的容灾系统,既能确保系统关键数据不会丢失还能大幅度降低容灾系统的建设、运维经费开销。

  在业务生产环境正常的情况下,系统主机中的应用系统访问业务生产环境中的数据库、块存储、对象存储等数据。同时,系统中的所有数据都同步或异步复制到系统容灾环境中。京东云通过提供稳定可靠、成本较低的数据库和存储资源,搭建理想的系统容灾环境。一旦在业务生产环境中的数据库、块存储设备、网络文件存储系统、对象存储系统等发生严重的故障而导致数据不可用时,支持将应用系统访问的数据地址切换到系统容灾环境,确保数据的一致和系统的稳定连续运行。

  数据级容灾相比于下述的应用级容灾能够节省部署冗余的计算环境,因此可以大幅度降低整体系统的建设成本。

4.3.3 应用级容灾

  京东云应用级容灾技术能够帮助客户实现更优化的系统容灾支持,确保某个范围发生重大灾难时客户的业务系统依然能够正常运行并对外提供可靠的服务。

  建设应用级容灾系统时,需要在相隔一定距离的至少两个数据中心同时建设应用系统集群和数据库及存储系统。在数据库存储的数据和存储系统存储的文件层面,数据会在系统正常运行时实现两个或多个数据中心的同步,数据同步的频率依据客户的具体需求进行设定。同时,在系统容灾环境中,具有足够的数量的服务器集群,并能够在业务生产环境遭受重大灾难时接替业务生产环境的服务器集群进行工作,承接原有的用户业务流量。在灾难或重大故障发生时,京东云支持通过DNS切换或负载均衡切换的方式对网络进行调整,使业务流量能够顺利切换到系统容灾环境中。

  应用级容灾相比于上述的数据级容灾能够承受更大的系统灾难和故障,通过冗余的计算资源承接用户的业务流量。而数据级容灾系统在服务器集群和数据库及存储系统同时遭受灾难时无法继续提供业务支撑,只能在服务器集群恢复运行后才能继续运行业务系统。

4.3.4 云产品容灾支持

4.3.4.1 云主机

  京东云支持对主机的操作系统、应用程序和数据进行容灾。

  操作系统容灾。不仅支持基于X86架构的各种物理服务器设备,也支持基于X86架构的云主机和虚拟机,能够实现对包括Linux、Windows、MacOS等多种主流操作系统的容灾。

  应用程序容灾。通过旁路监听业务生产环境的数据变化,通过字节级增量数据捕捉方式将业务生产环境中变化的数据复制到系统容灾环境。通过特有的数据序列化传输技术,确保业务生产环境和系统容灾环境中数据的一致性和完整性。

  数据容灾。对数据保护要求极高的客户,京东云能提供持续数据保护,并提供任意历史时间点数据恢复能力。通过字节级的数据保护技术,防止误操作、病毒、硬件故障等可能导致的数据丢失。支持在线部署容灾代理服务程序,对生产系统零影响,可保证应用运行的连续性。

4.3.4.2 数据库

  数据库容灾过程中,京东云利用容灾服务实例进行生产和系统容灾环境双向通信。以极小的生产环境性能影响,在复制全量数据后通过日志同步增量数据。数据复制采用抽取-写入模式,从业务生产环境抽取数据后将数据写入到系统容灾环境,数据访问操作由数据库容灾服务代理主动发起。若数据源支持SSL,则采用SSL进行加密传输。也支持通过VPN网络进行数据复制,确保数据传输安全。

  当业务生产环境的数据库发生故障时,可将业务流量转移至系统容灾环境数据库,保障业务正常运行。京东云混合云JD Cloud Mesh提供SQL级断点续传功能,无论业务生产环境、系统容灾环境还是管理端出现异常,通过断点续传功能,保障数据传输的稳定性、准确性和一致性。

4.3.5 主要指标

  京东云数据库与存储产品进行系统容灾的主要指标如下表所示:

  利用多种技术手段,京东云支持如下图所示的系统恢复能力:

更新时间:2019-12-31 18:32:06