产品文档

备份和容灾技术白皮书

5 典型场景和行业解决方案

5.1 多级容灾解决方案

  针对不同的客户需求,京东云提供多种级别系统容灾解决方案,帮助客户构建符合自身要求的系统。

5.1.1 周级容灾

  针对系统故障恢复能力要求不太高的客户(一般要求RTO≤7天),京东云提供周级容灾解决方案,帮助客户在较少资源和人力投入的情况下实现系统的容灾保障。

  在周级容灾方案中,重点针对用户客户的关键数据进行定时备份,并且支持在同地域或跨地域建立系统容灾环境。京东云支持通过在线传输或离线运输等方式实现关键数据的离线备份。

  当业务生产环境发生故障时,京东云运维系统能够快速发现系统故障并发出预警信息。在系统容灾环境中启动作为冷备的服务器资源,或者在京东云上基于原有系统设计方案重新搭建可用的业务系统,而后管理员能够将业务流量切换至系统容灾环境,并对外提供有效的服务。当原业务生产环境的资源被修复后,再将全部数据恢复至业务生产环境。

  周级容灾方案能够有效保护客户关键数据不会丢失,并一定程度上确保系统在短期内能够恢复服务,不但资源占用少,还能大幅降低容灾系统的建设和维护成本。

5.1.2 天级容灾

  针对系统故障恢复能力要求一般的客户(一般要求RTO≤1天),京东云提供天级容灾解决方案,帮助客户在一般资源和人力投入的情况下实现系统的容灾保障。

  在天级系统容灾解决方案中,对客户系统中的数据进行定时备份,确保数据能够在系统容灾环境中有效保存。通过环境一致但处于长期休眠状态的冷备服务器,实现在系统容灾环境中保有能够替代业务生产环境中业务系统运行的服务器。京东云支持对业务生产环境和系统容灾环境的主机、数据库等系统进行实时的系统监控和定时的运维检查,及时发现大规模系统故障。

  在业务生产环境发生大规模故障时,京东云运维系统能够第一时间检测到系统故障并对相关管理员发出预警信息。后续仅通过启动冷备服务器并进行系统自检之后,便可以将业务流量切换到系统容灾环境,使业务快速恢复运行。而后,当原有业务生产环境的资源恢复之后,在通过数据恢复和系统恢复技术使业务生产环境完全恢复。

  天级系统容灾方案实现了对客户业务系统的有效保护,确保客户业务系统在遭受大规模灾难时不会长期停滞,满足长期的业务良好运转。

5.1.3 小时级容灾

  针对业务系统停机会带来较大损失或造成较大社会影响的系统(一般客户灾难恢复容忍度RTO≤4小时,RPO≤1小时),为保障客户业务系统能够较快的恢复,京东云提供小时级容灾解决方案。

  小时级系统容灾解决方案中,主要采用温备的方法对系统进行备份。在应用系统层,基于主机进行定期的状态同步。系统容灾环境中的云主机每隔一段时间(如小于4小时)启动运行,在完成主机的关键数据和系统状态同步之后再进入休眠状态。在数据层,对数据库进行实时复制或定时备份,确保数据在系统容灾环境中与业务生产环境中的差异控制在一定时间范围之内。基于京东云提供的系统资源监控服务,对业务生产环境和系统容灾环境中的主机和数据库进行实时监控,能够及时发现系统故障。

  当大范围系统故障发生时,监控系统会发现故障并通过多种通信渠道向系统管理员发送故障信息。此后,管理员可快速将系统容灾环境中的云主机进行启动,当完成系统自检后系统容灾环境中的云主机即可对外提供服务。此时将外部访问流量切换到系统容灾环境即可。在正常提供服务的同时,后续当原业务生产环境的资源恢复正常后,可进行数据的恢复和系统的恢复,使系统回归到正常的状态。

  小时级容灾解决方案会依赖于管理员的有效操作,因此运维系统的可靠故障信息获得和及时信息传递非常关键,京东云以多年的运维保障经验积累,提供高质量运维系统,确保故障的及时发现和处置。

5.1.4 分钟级容灾

  针对金融等重要行业对系统灾难恢复能力要求很高的客户,为保障快速在系统灾难中进行恢复,京东云提供分钟级系统容灾解决方案,能够实现RTO≤30分钟且RPO≈0。

5.1.4.1 同城热备容灾解决方案

  京东云热备容灾解决方案能够实现分钟级系统恢复能力。

  京东云为客户在同城或异地提供完整的系统容灾环境,承载用于容灾的云主机和数据库资源。为降低客户建设和维护成本,可采用最小模式运行用于热备的云主机集群。即,处于运行状态的云主机满足客户业务的最小需求,从而减少冗余资源的资源用量。利用京东云的数据复制技术,实现数据库之间的实时数据复制,保证系统容灾环境和业务生产环境中的数据一致,防止数据因故障丢失。

  当业务生产环境因故发生大规模故障时,京东云运维监控平台能够快速反应,确保管理员能够收到及时的故障信息。在系统容灾环境,对系统中的云主机等资源进行扩展,使其能够承接当时的业务流量,而后通过网络切换将业务流量转移至系统容灾环境。整个系统故障处置过程能够在30分钟内完成。在业务生产环境恢复之后,也支持实现快速的数据恢复和系统恢复。

5.1.4.2 两地三中心容灾解决方案

  针对大规模的业务系统,为提升业务生产环境的生产能力,同时确保系统在大规模灾难发生后能实现分钟级系统业务恢复,京东云提供基于两地三中心技术的容灾解决方案。

  在两地三中心容灾解决方案中,京东云支持在同一地域内建立跨数据中心的双活系统运行环境,并在第二个地域内建立异地系统容灾环境。在同一地域内的两个数据中心中的服务器集群实现同步的数据更新,保证当任一个数据中心发生故障时另一个数据中心都能承载全部业务流量。在业务生产环境两个中心和异地系统容灾环境中的数据库利用实时复制技术实现实时同步更新,确保数据不会丢失。

  当业务生产环境中的系统发生大规模故障时,通过异地系统容灾环境的支持,能够实现快速的系统业务恢复,也可以实现有效的业务生产环境恢复。

  分钟级系统容灾解决方案能够为容灾需求高的客户实现更好的业务恢复能力,并有效防止数据丢失。

5.1.5 秒级容灾

  同城双活容灾解决方案中,利用京东云先进的网络负载均衡技术,能够根据客户的实际业务需求实现业务流量的分配,使同一城市中的两个业务生产环境能够按指定比例均衡的处理业务流量数据。

  在两个环境中的服务器中,支持实时同步需要同步的系统数据。支持数据库实时复制,并确保数据一致性,实现两个环境中的数据相同。

  当某个业务生产环境中的系统遭遇大规模故障,网络负载均衡模块将自动把业务流量转发至正常运行的业务生产环境,保障业务运行的连续性。在京东云公有云环境中,支持资源快速扩容,能够帮助客户支撑原有体量的客户业务请求。当故障的一侧业务生产环境恢复正常后,京东云公有云也支持快速的资源回收,确保客户业务连续性的同时,也能大幅节省成本开销。

  同城双活容灾解决方案能够实现很好的业务连续性,但当城市遭遇地震等大规模灾害导致电力、通讯等基础设施全部损坏的情况下,业务生产环境也有全部无法运转的风险。

5.1.5.2 异地多活容灾解决方案

  针对大规模灾害导致系统故障的风险,提供异地多活系统容灾解决方案。

  在同城双活的基础上,京东云支持在异地建立支持容灾并提供业务服务的数据中心。分布在两个地域的三个或三个以上的数据中心同时对外提供业务生产服务。在这个方案中,京东云提供先进的数据同步和系统同步工具,大大降低系统建设难度,提升系统抗灾恢复能力。

  异地多活秒级系统容灾解决方案能够有效支撑对系统容灾恢复能力有最高要求的系统。

5.2 行业解决方案

5.2.1 金融行业

  金融行业是关系社会民生甚至国家安全的重要行业,因此其业务系统对业务连续性要求非常高,仅能容忍非常短的系统故障恢复时间和很小系统数据因故障的损失。中国人民银行发布的《JR/T 0168-2018云计算技术金融应用规范容灾》,明确规定了金融领域云计算平台须达到容灾能力3到6 级要求。京东云基于多年的系统建设维护技术积累,利用可靠的云平台产品,能够帮助金融客户满足金融云行业标准。

  京东云提供全面实施监控服务,业务生产系统一旦遭遇灾难并发生大规模故障,能够实现及时故障信息上报,帮助管理员采取快速应急措施,保障关键金融业务的可用性。京东云支持以下多种金融级容灾方案:

  • 支持容灾等级3级标准

 (1)利用京东云天级容灾解决方案,实现一天之内完成灾难恢复。

 (2)支持实现RTO≤24 小时,RPO≤24 小时,支持每年非计划服务中断时间不超过4 天,支持系统可用性99%以上。

  • 支持容灾等级4级标准

 (1)利用京东云小时级容灾解决方案,实现数小时之内完成灾难恢复。

 (2)支持RTO≤4 小时,RPO≤1 小时,支持每年非计划服务中断时间不超过10 小时,支持系统可用性99.9%以上。

  • 支持容灾等级5级标准

 (1)利用京东云分钟级容灾解决方案,实现数分钟之内完成灾难恢复。

 (2)支持RTO ≤30 分钟,RPO≈0, 支持每年非计划服务中断时间不超过1 小时,支持系统可用性99.99%以上。

  • 支持容灾等级6级标准

 (1)利用京东云秒级容灾解决方案,实现数秒之内完成灾难恢复。

 (2)支持RTO≤2 分钟,RPO=0 ,支持每年非计划服务中断时间不超过5 分钟,支持系统可用性99.999%以上。

5.2.2 政务行业

  随着智慧城市的兴起,各级政府对云计算技术越来越重视,政务系统上云,甚至建立完善的政务云已经成为新兴的技术趋势。下面以省级和市县级政务系统为例,介绍京东云在政务行业中的系统容灾解决方案。

  省级政务系统对业务连续性要求高,京东云提供小时级和分钟级容灾解决方案,确保关键业务系统长期稳定运行。京东云提供专有云JD Cloud Stack和公有云有效承载大规模省级政务系统,支撑民生建设。

  市县级政务系统相对规模较小,并且运维人员相对较少,京东云支持采用公有云、专有云、或敏捷专有云提供容灾资源,并提供高质量的运维服务,并基于周或天级容灾解决方案帮助政府客户降低建设和运维成本。

5.2.3 电商行业

  京东云具有强大的电商基因,因此在电商行业具有领先的云计算和系统容灾技术水平。

  数据是电商的核心战略资源,数据损失将对电商的业务发展造成极为严重和深远的影响,因此京东云针对不同规模和类型的电商,在提供有效的数据容灾保障的同时对业务连续性进行保障。

  针对小型电商,京东云提供公有云、敏捷专有云等云平台资源,帮助其在实现较好的系统容灾能力的同时,有效降低系统建设和运维成本。

  针对商超零售客户,京东云在提供完整的电商解决方案的同时,基于公有云和专有云提供强大的计算、存储、网络资源,同时利用架构设计优势,确保在灾难情况下数据损失小,系统恢复快。

  针对平台商城和大型品牌商城等大型电商客户,京东云在技术和服务方面提供全方位支撑,不但能保证业务系统的连续性,还通过提供整个生态系统的支持帮助客户不断实现业务发展和突破。

5.2.4 教育、医疗及其它行业

  京东云对各个行业均能提供有针对性的有效系统容灾解决方案。

  随着互联网技术的发展,教育云发展极为迅速,生发出众多细分行业,最有代表性的为传统普通教育云与在线教育云。京东云针对各个细分行业,提供有针对性的系统容灾解决方案,确保客户的数据得到有效的保护,保障业务连续性满足客户需求预期。

  京东云还针对医疗、农业、广大企业等各行各业的客户,基于行业和客户的具体系统容灾需求,提供专业的系统架构设计和实施方案,有效提升客户业务系统的容灾能力。

更新时间:2019-12-31 18:32:06