文章

渠道稳定性值班手册:Telegram / Discord / WhatsApp

给值班同学的一页 runbook:看哪些指标、报警阈值怎么设、前 10 分钟怎么排障。

这页怎么用

当渠道出问题时,不要先改配置。先按这页做排查和止血。

你只要记住两件事:

  1. 先确认问题在哪一层,再改那一层
  2. 每次只改一个点,改完马上回归

值班目标(先定标准)

这 3 个目标先写进你的值班看板:

  1. 消息投递成功率不低于 99%
  2. p95 响应时延控制在 8 秒以内
  3. 单渠道每天重连次数不高于 2 次

必须监控的 6 个指标

  1. 渠道入口请求量(5 分钟窗口)
  2. 渠道错误率(按错误码分组)
  3. 会话路由冲突数
  4. 渠道重连次数
  5. 最后一条成功回写时间
  6. 渠道级超时比例

报警阈值(直接用)

  • P1: 连续 5 分钟无成功回写
  • P1: 错误率高于 10%,并持续 10 分钟
  • P2: p95 时延超过 12 秒,并持续 15 分钟
  • P2: 重连次数超过每小时 5 次

前 10 分钟排障 SOP

  1. 看入口:消息有没有进来
  2. 看路由:session key 是否正确
  3. 看执行:模型/工具调用是否失败
  4. 看回传:平台 API 是否超时或拒绝

只按这个顺序,不要跳步。

三个高频故障对应动作

  1. Telegram 消息乱序
    动作:先校验消息时间戳与 session key,再看并发处理顺序
    来源:Issue #45596

  2. Discord 事件超时
    动作:先查 webhook/event 延迟,再查调用链超时
    来源:Issue #45589

  3. WhatsApp 24h 后监听中断
    动作:先查连接保活与重连策略,再查 token 状态
    来源:Issue #45581

每天值班结束前要做的 5 件事

  1. 导出渠道错误 Top 5
  2. 记录当日 P1/P2 事件
  3. 更新“已知问题到临时绕行方案”清单
  4. 校验重连策略是否生效
  5. 回放至少 1 条故障链路

参考文档

结论

如果你只能保留一页渠道运维文档,就保留这页。
它的价值是让新人也能在 10 分钟内按顺序定位故障,而不是靠经验猜。