云主机

产品文档

云主机

监控与报警概述

实例监控与报警为您提供实时实例监控管理服务,支持不同监控维度,在实例成功创建后即开始采集数据,以图表方式直观展现,方便您掌握实例资源使用情况、运行状态等信息,同时您可设置不同的报警规则,当触发该类条件后则触发报警通知,使您轻松定位故障。

监控指标

京东云为您提供云主机实例的CPU、内存、磁盘、网络等类型的监控指标,其中云主机监控指标分为基础指标和扩展指标:

  • 基础指标具有较高的通用性,能满足您平时对监控数据的需求,上报的指标种类不支持调整,可在云主机详情页或 云监控-资源监控-云主机 下查看监控数据;
  • 扩展指标是对基础指标的细节补充,可以满足某些特殊场景的监控需求,您需要按需自行配置上报的指标种类,此类指标会上报至 云监控-自定义监控 服务中,您可以参照下方 扩展指标配置说明 进行配置,监控数据查看方式请参见 获取实例监控数据

基础指标

指标类型 指标英文名 指标中文名 单位 说明 上报维度
CPU vm.cpu.util CPU使用率 % 非空闲vCPU所占的百分比 实例
vm.avg.load1 CPU平均负载(1min) 1分钟内的系统平均负载 仅Linux系统有此指标 实例
vm.avg.load5 CPU平均负载(5min) 5分钟内的系统平均负载 仅Linux系统有此指标 实例
vm.avg.load15 CPU平均负载(15min) 15分钟内的系统平均负载 仅Linux系统有此指标 实例
内存 vm.memory.usage 内存使用率 % 已用内存量占总内存总量百分比 实例
vm.memory.used.bytes 内存使用量 Bytes 系统已用内存容量 实例
磁盘 vm.disk.bytes.read 磁盘读吞吐量(Host) Bps 全部磁盘每秒读取的字节数 实例
vm.disk.bytes.write 磁盘写吞吐量(Host) Bps 全部磁盘每秒写入的字节数 实例
vm.disk.dev.bytes.read 磁盘读吞吐量 Bps 磁盘每秒读取的字节数 设备文件名:devName
  • Linux:'devName'='/vda','/vdb1', ...
  • Windows:‘devName’='C','D', ...
  • Linux系统如磁盘有分区,则按分区统计上报,若无分区则按磁盘统计上报;Windows系统均按盘符统计上报。
    vm.disk.dev.bytes.write 磁盘写吞吐量 Bps 磁盘每秒写入的字节数
    vm.disk.dev.io.read 磁盘读IOPS Count/s 磁盘每秒读请求数量
    vm.disk.dev.io.write 磁盘写IOPS Count/s 磁盘每秒写请求数量
    vm.disk.dev.used 磁盘使用率 % 磁盘已使用空间容量 挂载点:mountPoint
  • Linux:'mountPoint'='/','/mnt', ...
  • Windows:‘mountPoint’='C','D', ...
  • Linux系统按挂载点统计上报;Windows系统按盘符统计上报仅Linux系统提供'磁盘inode使用率'指标
    vm.disk.dev.used.bytes 磁盘使用量 Bytes 磁盘已使用空间容量
    vm.disk.dev.inode.used 磁盘inode使用率 % 磁盘文件系统inode使用百分比 仅Linux系统有此指标
    网络 vm.network.bytes.incoming 网络入带宽(Host) bps 全部网卡每秒接收的比特数 实例
    vm.network.bytes.outgoing 网络出带宽(Host) bps 全部网卡每秒接收的比特数 实例
    vm.network.dev.bytes.in 网络入带宽 bps 网卡每秒接收的比特数 网卡:devName
  • Linux/Windows:'devName'='eth0','eth1', ...
  • vm.network.dev.bytes.out 网络出带宽 bps 网卡每秒发送的比特数
    vm.network.dev.packets.in 网络入包量 pps 网卡每秒入包量
    vm.network.dev.packets.out 网络出包量 pps 网卡每秒出包量
    vm.netstat.tcp.established TCP连接数 Count 处于 ESTABLISHED 状态的 TCP 连接数量 实例
    GPU vm.gpu.power GPU功耗 Wt GPU功耗 GPU卡:gpu_index
  • Linux/Windows:'gpu_index'='0','1', ...
  • vm.gpu.temperature GPU温度 GPU温度
    vm.gpu.util.gpu GPU核心使用率 % GPU核心使用率
    vm.gpu.util.encoder GPU编码器使用率 % GPU编码器使用率
    vm.gpu.util.decoder GPU解码器使用率 % GPU解码器使用率
    vm.gpu.util.mem GPU内存使用率 % GPU内存使用率
    vm.gpu.used.mem.bytes GPU内存使用量 Bytes GPU内存使用量

    扩展指标

    指标类型 指标英文名 指标中文名 单位 说明 上报维度
    CPU vm.cpu.cores.user CPU使用率(user) % CPU在用户态进程和低优先级进程的时间百分比 仅Linux系统有此指标 实例
    vm.cpu.cores.iowait CPU使用率(iowait) % CPU由于系统IO而处于等待状态的时间百分比 仅Linux系统有此指标 实例
    磁盘 vm.disk.dev.io.util 磁盘IO繁忙百分比 % 磁盘IO繁忙百分比 设备名:devName
  • Linux:'devName'='/vda','/vdb1', ...
  • Windows:‘devName’='C','D', ...
  • Linux系统如磁盘有分区,则按分区统计上报,若无分区则按磁盘统计上报;Windows系统均按盘符统计上报。
    vm.disk.dev.io.await 磁盘IO等待百分比 % 磁盘IO等待百分比
    TCP连接数 vm.netstat.tcp.last_ack last_ack Count 处于last_ack状态下的TCP连接数量 实例
    vm.netstat.tcp.syn_recv syn_recv Count 处于syn_recv状态下的TCP连接数 实例
    vm.netstat.tcp.fin_wait1 fin_wait1 Count 处于fin_wait1状态下的TCP连接数量 实例
    vm.netstat.tcp.fin_wait2 fin_wait2 Count 处于fin_wait2状态下的TCP连接数量 实例
    vm.netstat.tcp.closing closing Count 处于closing状态下的TCP连接数量 实例
    vm.netstat.tcp.time_wait time_wait Count 处于time_wait状态下的TCP连接数量 实例

    扩展指标配置说明

    您可以按照下方步骤进行扩展指标的采集配置:

    • 确认JCS-Agent组件版本不低于'3.0.1086',如低于此版本请参考下方【监控插件安装说明】部分安装或更新插件。
      ps -ef|grep MonitorPlugin
    • 登录云主机,进入监控插件目录
      cd /usr/local/share/jcloud/agent/plugins/MonitorPlugin-[version]
    • 创建名称为“Extended.cfg”的配置文件,然后参考下方配置示例,根据需求自定义上报的监控指标,其中:
      • "namespace":为上报至云监控自定义监控的命名空间,可自定义。

        namespace长度不可超过255字节,只允许英文、数字、下划线、点., [0-9][a-z] [A-Z] [. ])。

      • "metrics":为上报至云监控的扩展指标,目前支持的扩展指标类别包扩:"cpu", "disk-io", "netstat" 。
    • {  "agent": { "namespace": "vm_extend_metric" },  "metrics": {    "disk-io": {      "measurement-white-list": ["vm.disk.dev.io.util", "vm.disk.dev.io.await"]    },    "netstat": {      "measurement-white-list": [        "vm.netstat.tcp.last_ack",        "vm.netstat.tcp.syn_recv",        "vm.netstat.tcp.fin_wait1",        "vm.netstat.tcp.fin_wait2",        "vm.netstat.tcp.closing",        "vm.netstat.tcp.time_wait",        "vm.netstat.tcp.retrans_segs"      ]    },    "cpu": {      "measurement-white-list": ["vm.cpu.cores.user", "vm.cpu.cores.iowait"]    }  }}
    • 重启监控插件(查找进程id,kill后插件将在5分钟内自动拉起),随后即以上述配置开始采集和上报扩展指标(插件升级期间基础指标可能存在短暂缺失)。
        ps -ef | grep -i MonitorPlugin  //查看监控进程id  kill [pid]  //指定进程id kill

      监控插件安装说明

    云主机监控数据的采集和上报依赖于官方镜像系统组件'JCS-Agent'中的'MonitorPlugin'插件,当前官方镜像均默认安装'ifrit'工具,实现对JCS-Agent的自动升级。如您基础指标或扩展指标监控数据缺失,可能是由于JCS-Agent/ifrit状态异常或版本过低,请确认JCS-Agent/ifrit状态及版本。

    注意: 'MonitorPlugin'插件版本需不低于“3.0.1086”才支持扩展指标的上报

    • 关于安装JCS-Agent及Ifrit,您可以参考:官方镜像系统组件-'JCS-Agent'
    • JCS-Agent版本查看方式:
      • Linux:ps -ef|grep MonitorPlugin
      • Windows:wmic process where caption="MonitorPlugin.exe" get caption,commandline /value

    监控数据说明

    • 名称中有“(Host)”字样的指标为云主机所在宿主机采集并上报,其余指标均为系统组件采集上报;
    • 所有网络监控指标均不区分内外网,即为内网+外网的整体数据;
    • 监控数据采集周期为10s,最小展示间隔为1min;
    • 不同指标的默认聚合方式不同,可在监控图中查看各指标的聚合方式;
    • 统计周期默认支持1小时、6小时、12小时、1天、3天、7天及14天,此外还支持您设置统计周期,最短为1分钟,最长为一个月。不同统计周期监控值会做对应聚合,例如6小时统计周期情况下,监控图上间隔5分钟显示一个监控值,该监控值为对应统计周期内采集值的聚合,当前仅支持以默认聚合方式查询;
    • 监控数据最长保存30天,用户在控制台可以查看30天的监控数据。

    监控指标单位

    单位是监控指标的基本度量,下方为云监控所支持的指标单位:

    单位 说明
    % 百分比
    Bytes 字节数,用于表示数据的大小。1Byte = 8bit
    Bps 每秒字节数(bytes per second)
    bps 每秒比特数(bits per second)
    pps 每秒包数(packets per second)
    Count 次数
    Count/s 每秒操作的次数(counts per second)
    Wt 电功率,每秒消耗的电能
    摄氏度

    相关参考

    官方镜像系统组件

    获取实例监控数据

    云监控-自定义监控

    更新时间:2022-03-04 10:57:57
    feedback