产品文档

用云最佳实践白皮书

构建易运维的系统

运维

运维是在系统上线前进行部署和系统上线之后对系统中所包含的软硬件资源进行管理、监控、维护和故障应急响应等工作。可运维性是指用户对系统实施运维工作时的便利程度和实施的成效。

  • 运维管理是对用户云上资源和业务系统进行统一管理,对资源进行合理的规划、部署和配置,对云平台和业务系统的管理账户进行安全管理。

  • 运维监控是对京东云上的资源和用户自有的IT资源进行监控,掌握资源的运行状态、资源效率、故障情况,对故障进行报警。

  • 系统维护是对云上资源和用户IT资源进行有计划的维护操作,保障整个系统的网络畅通,应对突增流量,保障系统的稳定运行、安全可靠。

  • 故障应急响应是在云计算平台或用户系统出现故障时进行的快速响应动作和操作,包括通知技术人员、快速排除故障、恢复业务运行。后续查找故障原因并进行解决。

运维指标

系统的可运维性是对系统正常运行和更新进行运营和维护的能力,包括对资源的管理、维护、监控和故障应急响应。系统的可运维性对系统持续正常输出服务能力具有非常重要的作用,是影响业务运转和发展的关键要素。

系统的可运维性较难进行定量的衡量,因此一般采用定性的衡量方法,即通过一些组合的方法评估可运维性的好坏程度。衡量可运维性好坏主要可以根据以下几个方面来判断:

  • 系统部署的工具化和脚本化程度。

  • 系统资源和服务监控的广度和深度。

  • 系统对故障的响应和恢复能力。

  • 系统迭代和更新的能力。

更新时间:2019-11-18 17:24:23