loongxia.net

Loongxia

文章

运维监控落地版：Cron + Heartbeat + Auth Monitoring

直接给最小可执行配置、报警阈值和日常巡检清单，把 OpenClaw 跑成可运维系统。

这页只解决一件事

让你今天就把“可运行”升级成“可值班”。

今天先做完这 3 件事就算达标：

每 5 分钟探活 + 失败报警
每小时认证有效期检查
每天任务执行成功率日报

参考文档：

最小监控任务表（可直接抄）

health_check：每 5 分钟
目标：确认服务可用、接口可响应
auth_expiry_check：每小时
目标：提前发现 token 即将过期
daily_job_report：每天 09:00
目标：输出昨日成功率、失败任务和重试次数

示例调度（按你的环境改）

*/5 * * * * /opt/openclaw/ops/health_check.sh
0 * * * * /opt/openclaw/ops/auth_expiry_check.sh
0 9 * * * /opt/openclaw/ops/daily_job_report.sh

如果你不用 cron，也至少保持同频率的调度逻辑。

建议输出字段（日志与报表统一）

每个任务都至少输出：

taskId
channel
status
durationMs
retryCount
errorCode（失败时）

没有这些字段，后续排障会很慢。

报警阈值（先用这组）

P1: 10 分钟内连续 3 次健康检查失败
P1: 任一关键渠道认证失效
P2: 单小时失败率高于 5%
P2: p95 耗时高于 2 倍基线

每天巡检清单（10 分钟）

看昨日成功率是否低于 98%
看失败任务 Top 5 是否集中在同一渠道
看重试次数是否连续上升
看认证到期时间是否在 24h 内
确认至少一次故障演练可回放

结论

Cron 负责“按时执行”，Heartbeat 负责“活着”，Auth Monitoring 负责“还能调用”。
三个少一个，线上就会出现“服务看着在线，但业务已经失效”。