上个月我在 V2EX 发过一个更早期版本,当时更多是在讲思路。
这次把项目整理到了一个能直接跑的 v0.1.0 MVP,所以补发一次更新版:
debug-runbook
https://github.com/UnCooe/debug-runbook
如果你上次看过,这次值得重新看一眼的点主要有 3 个:
pnpm demo,0 配置先跑起来v0.1.0 的状态这个项目核心还是那个判断:
很多线上故障不是没有规律,而是排查流程本身高度套路化。
比如某个结果不对,正常排查顺序往往就是:
我后来越来越觉得,AI 排障里最值钱的不是“给模型更多工具”,而是把这套顺序和证据边界写清楚。
不然就很容易变成:
所以这个项目做的事情,不是再封装一堆调试工具,而是把排障经验写成可执行 Runbook ,让 Agent:
现在仓库里开源的是这层可复用骨架:
边界也先说清楚:
现在已经能 0 配置直接跑 demo 了:
pnpm install
pnpm demo
pnpm benchmark
pnpm check
快来试试,把你们团队祖传的排错绝招写成剧本提个 PR !
1
gyl1989113 6 天前
收藏了。。这个项目运维开发能用吗
|
2
bimeixishuai OP @gyl1989113
可以借鉴,运维排错本身或者说只要可以抽象的排错逻辑就很适合这套思路。 很多运维问题其实也有固定排查顺序,适合把这些经验抽成 runbook ,让 AI 按顺序取证,而不是自由乱查。 不过当前这个仓库内置的能力更偏后端业务链路排障,不是开箱即用的运维平台。 如果要用在运维场景,一般需要自己补对应的 tool adapter 和 runbook/skill ,比如接 K8s 、Prometheus 、日志系统之类,再把平时的排错逻辑沉淀进去。 |
3
bimeixishuai OP @gyl1989113 可以直接让 cc 帮你介入你想要暴露的一些内容,你把经验告诉他抽象为 skill 就可以快速体验效果
|