发布日期:2025-11-23 19:36点击次数:
云老大 TG @yunlaoda360
在阿里云日志服务中,告警通知的升级策略用于实现 “告警未及时响应时自动递进强化通知” 的效果(如从普通渠道升级为紧急渠道、从通知值班人员升级为通知负责人),确保高危告警被有效处理。具体配置步骤如下:
1. 进入升级策略配置入口
升级策略需在行动组中配置,具体路径:日志服务控制台 → 目标 Project → 【告警】→【行动组】→ 新建行动组或编辑已有行动组 → 找到 “升级策略” 模块(位于 “通知渠道” 配置下方)。
2. 配置升级策略的核心参数
点击 “升级策略” 模块的【添加升级策略】,按以下步骤设置规则:
(1)选择触发条件
即 “什么情况下触发升级”,支持两种核心场景:
告警持续未确认:告警触发后,若在设定时间内未被人工标记为 “已确认”(表示 “已看到告警”),则触发升级。
告警持续未解决:告警触发后,若在设定时间内未被标记为 “已解决”(表示 “问题已处理”),则触发升级。
根据场景选择(例如 P1 级告警建议选 “未确认”,确保值班人员看到;P2 级可选 “未解决”,确保问题闭环)。
(2)设置等待时间
即 “告警未响应多久后升级”,可自定义时长(如 5 分钟、10 分钟、30 分钟),需结合告警级别:
P1 级(严重):建议 5-10 分钟(快速升级,避免延误)。
P2 级(重要):建议 15-30 分钟。
P3/P4 级(一般):可设置更长时间或不配置升级。
(3)配置升级渠道
即 “升级后用什么方式通知”,需选择比初始渠道更紧急或更广泛的渠道,例如:
初始渠道为 “钉钉群”,升级渠道可设为 “语音电话 + 短信(值班人员)+ 邮件(负责人)”。
初始渠道为 “短信”,升级渠道可设为 “语音电话(重复拨打)+ 钉钉 @所有人”。
配置时需:
选择渠道类型(如语音、短信、Webhook 等)。
关联接收对象(可扩大范围,如从 “值班组” 升级为 “值班组 + 技术负责人”)。
设置升级后的内容模板(建议突出 “升级” 标识,如【紧急升级】${alertName}未处理,请立即响应!)。
(4)设置升级次数(可选)
支持多次升级(如 “第一次升级用语音,30 分钟仍未处理则第二次升级通知部门总监”):
点击【添加升级策略】可新增多轮规则,每轮设置独立的等待时间和升级渠道。
避免过度升级(建议最多 2-3 轮),防止信息轰炸。
3. 关联告警规则并生效
完成行动组配置后,点击【确认】保存。
在【告警规则】中,将该行动组关联到目标告警规则(在 “通知配置” 中选择该行动组)。
当告警触发后,系统会先按初始渠道通知;若满足升级条件(如 10 分钟未确认),则自动按升级策略推送通知。
注意事项
渠道差异化:升级渠道需与初始渠道有明显区分(如从 “非实时” 到 “实时”、从 “小范围” 到 “大范围”),否则升级无意义。
时间合理性:等待时间不宜过短(避免误升级)或过长(延误处理),需结合团队响应速度调整。
状态联动:“未确认 / 未解决” 状态依赖人工操作或告警规则自动恢复(如指标回归正常则标记为 “已解决”),需确保状态更新机制有效。
通过以上配置,可实现告警通知的阶梯式强化,提升高危问题的响应效率。
