这页只解决一件事
让你今天就把“可运行”升级成“可值班”。
今天先做完这 3 件事就算达标:
- 每 5 分钟探活 + 失败报警
- 每小时认证有效期检查
- 每天任务执行成功率日报
参考文档:
最小监控任务表(可直接抄)
-
health_check:每 5 分钟
目标:确认服务可用、接口可响应 -
auth_expiry_check:每小时
目标:提前发现 token 即将过期 -
daily_job_report:每天 09:00
目标:输出昨日成功率、失败任务和重试次数
示例调度(按你的环境改)
*/5 * * * * /opt/openclaw/ops/health_check.sh
0 * * * * /opt/openclaw/ops/auth_expiry_check.sh
0 9 * * * /opt/openclaw/ops/daily_job_report.sh
如果你不用 cron,也至少保持同频率的调度逻辑。
建议输出字段(日志与报表统一)
每个任务都至少输出:
taskIdchannelstatusdurationMsretryCounterrorCode(失败时)
没有这些字段,后续排障会很慢。
报警阈值(先用这组)
P1: 10 分钟内连续 3 次健康检查失败P1: 任一关键渠道认证失效P2: 单小时失败率高于 5%P2: p95 耗时高于 2 倍基线
每天巡检清单(10 分钟)
- 看昨日成功率是否低于 98%
- 看失败任务 Top 5 是否集中在同一渠道
- 看重试次数是否连续上升
- 看认证到期时间是否在 24h 内
- 确认至少一次故障演练可回放
结论
Cron 负责“按时执行”,Heartbeat 负责“活着”,Auth Monitoring 负责“还能调用”。
三个少一个,线上就会出现“服务看着在线,但业务已经失效”。