文档首页/ 文档数据库服务 DDS/ 最佳实践/ DDS指标告警配置建议
更新时间:2025-05-28 GMT+08:00
分享

DDS指标告警配置建议

操作场景

通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。DDS支持为实例的监控指标设置阈值告警规则。当监控指标的值超出设置的阈值时就会触发告警,系统会通过SMN自动发送报警通知给云账号联系人,帮助您及时了解DDS实例的运行状况。

本章节介绍了设置DDS指标告警规则的配置建议。

创建告警规则

  1. 登录管理控制台
  2. 选择“管理与监管 > 云监控服务”。
  3. 在左侧导航树,选择“告警 > 告警规则”。
  4. 在“告警规则”页面,单击“创建告警规则”。
  5. 在“创建告警规则”界面,根据界面提示配置参数。

    此处需要关注如下参数:
    • 事件来源:选择文档数据库服务。

    • 维度:DDS支持实例级别和节点级别的监控维度,不同的监控指标支持的监控维度不同,请参考文档数据库服务监控指标说明
      图1 配置监控维度
    • 其他参数,请参考《云监控服务用户指南》中“设置告警规则”章节进行配置。

表1 DDS指标告警配置建议

指标ID

指标名称

指标维度

最佳实践阈值

最佳实践告警级别

告警后的处理建议

mongo007_connections_usage

当前活跃连接数百分比

节点级

连续3个周期 原始值 > 80 %

重要

  • 建议用户检查业务是否有合理使用连接池。
  • 建议用户检查连接常用的超时等配置参数是否配置合理,详情请参考:驱动侧通用参数配置
  • 建议可提高最大连接数。
    • 副本集最大连接数在16000以下可通过规格变更提高最大连接数。
    • 集群可通过增加mongos数量提高最大连接数。

mongo031_cpu_usage

CPU使用率

节点级

连续3个周期 原始值 > 80 %

重要

  • 建议排查CPU高的原因,详情请参考排查DDS实例CPU使用率高的问题
  • 建议在CPU持续高位的情况下,升配CPU规格,详情请参考变更实例的CPU和内存规格
  • 如果CPU持续高且用户业务不能完全停掉,规格变更可能会失败,此时可选择“工单 > 新建工单”,完成工单提交,要求工程师在后台通过一键限制连接数的能力限制业务连接,规格变更结束后再恢复连接数。

mongo035_disk_usage

磁盘利用率

节点级

连续3个周期 原始值 > 80 %

重要

mongo032_mem_usage

内存使用率

节点级

连续3个周期 原始值 > 90 %

重要

mongo039_avg_disk_sec_per_read

硬盘读耗时

节点级

连续3个周期 阈值 >= 0.1 s

重要

  • 建议检查实例是否存在CPU、内存、连接数等的性能瓶颈,如果有的话请参考相关指标建议解决性能瓶颈问题。
  • 建议在业务无法优化的场景下,升配实例规格或变更到磁盘性能更优的规格。详情请参考:变更实例的CPU和内存规格实例规格

mongo040_avg_disk_sec_per_write

硬盘写耗时

节点级

连续3个周期 阈值 >= 0.1 s

重要

  • 建议检查实例是否存在CPU、内存、连接数等的性能瓶颈,如果有的话请参考相关指标建议解决性能瓶颈问题。
  • 建议在业务无法优化的场景下,升配实例规格或变更到磁盘性能更优的规格。详情请参考:变更实例的CPU和内存规格实例规格
  • 用户可在console尝试主备倒换。

相关文档

    OSZAR »