文章

运维监控落地版:Cron + Heartbeat + Auth Monitoring

直接给最小可执行配置、报警阈值和日常巡检清单,把 OpenClaw 跑成可运维系统。

这页只解决一件事

让你今天就把“可运行”升级成“可值班”。

今天先做完这 3 件事就算达标:

  1. 每 5 分钟探活 + 失败报警
  2. 每小时认证有效期检查
  3. 每天任务执行成功率日报

参考文档:

最小监控任务表(可直接抄)

  1. health_check:每 5 分钟
    目标:确认服务可用、接口可响应

  2. auth_expiry_check:每小时
    目标:提前发现 token 即将过期

  3. daily_job_report:每天 09:00
    目标:输出昨日成功率、失败任务和重试次数

示例调度(按你的环境改)

*/5 * * * * /opt/openclaw/ops/health_check.sh
0 * * * * /opt/openclaw/ops/auth_expiry_check.sh
0 9 * * * /opt/openclaw/ops/daily_job_report.sh

如果你不用 cron,也至少保持同频率的调度逻辑。

建议输出字段(日志与报表统一)

每个任务都至少输出:

  • taskId
  • channel
  • status
  • durationMs
  • retryCount
  • errorCode(失败时)

没有这些字段,后续排障会很慢。

报警阈值(先用这组)

  • P1: 10 分钟内连续 3 次健康检查失败
  • P1: 任一关键渠道认证失效
  • P2: 单小时失败率高于 5%
  • P2: p95 耗时高于 2 倍基线

每天巡检清单(10 分钟)

  1. 看昨日成功率是否低于 98%
  2. 看失败任务 Top 5 是否集中在同一渠道
  3. 看重试次数是否连续上升
  4. 看认证到期时间是否在 24h 内
  5. 确认至少一次故障演练可回放

结论

Cron 负责“按时执行”,Heartbeat 负责“活着”,Auth Monitoring 负责“还能调用”。
三个少一个,线上就会出现“服务看着在线,但业务已经失效”。