这页怎么用
当渠道出问题时,不要先改配置。先按这页做排查和止血。
你只要记住两件事:
- 先确认问题在哪一层,再改那一层
- 每次只改一个点,改完马上回归
值班目标(先定标准)
这 3 个目标先写进你的值班看板:
- 消息投递成功率不低于 99%
- p95 响应时延控制在 8 秒以内
- 单渠道每天重连次数不高于 2 次
必须监控的 6 个指标
- 渠道入口请求量(5 分钟窗口)
- 渠道错误率(按错误码分组)
- 会话路由冲突数
- 渠道重连次数
- 最后一条成功回写时间
- 渠道级超时比例
报警阈值(直接用)
P1: 连续 5 分钟无成功回写P1: 错误率高于 10%,并持续 10 分钟P2: p95 时延超过 12 秒,并持续 15 分钟P2: 重连次数超过每小时 5 次
前 10 分钟排障 SOP
- 看入口:消息有没有进来
- 看路由:session key 是否正确
- 看执行:模型/工具调用是否失败
- 看回传:平台 API 是否超时或拒绝
只按这个顺序,不要跳步。
三个高频故障对应动作
-
Telegram 消息乱序
动作:先校验消息时间戳与 session key,再看并发处理顺序
来源:Issue #45596 -
Discord 事件超时
动作:先查 webhook/event 延迟,再查调用链超时
来源:Issue #45589 -
WhatsApp 24h 后监听中断
动作:先查连接保活与重连策略,再查 token 状态
来源:Issue #45581
每天值班结束前要做的 5 件事
- 导出渠道错误 Top 5
- 记录当日 P1/P2 事件
- 更新“已知问题到临时绕行方案”清单
- 校验重连策略是否生效
- 回放至少 1 条故障链路
参考文档
结论
如果你只能保留一页渠道运维文档,就保留这页。
它的价值是让新人也能在 10 分钟内按顺序定位故障,而不是靠经验猜。