Wow‑harness 让 AI 自己写代码,人几乎不用管:这套系统用机械约束驯服 AI Agent
- 免费干货
- 6小时前
- 10热度
- 0评论
摘要:
如果你最近在用Claude Code写项目,大概率会有这种体验: 它写得很快,你也觉得很省事。 直到有一天你发现: 👉 测试根本没跑 👉 文件被悄悄改了 👉 一个 bug 修成了三个 bug 我也被坑过。后来遇到了wow‑harness,才意识到一件事: 不是 AI 不行,是我们一直在用“嘴”管它。...
如果你最近在用Claude Code写项目,大概率会有这种体验:
它写得很快,你也觉得很省事。
直到有一天你发现:
👉 测试根本没跑
👉 文件被悄悄改了
👉 一个 bug 修成了三个 bug
我也被坑过。后来遇到了wow‑harness,才意识到一件事:
不是 AI 不行,是我们一直在用“嘴”管它。
wow‑harness 是怎么来的?
一句话概括:
wow‑harness 是 Claude Code 的“治理层”。
作者发现一个残酷事实:
| 方式 | 遵从率 |
|---|---|
| CLAUDE.md 里的指令 | ~20% |
| PreToolUse Hook | 100% |
它到底解决了什么问题?
假装完成
“测试全过了。”
顺手乱改
“这个改动很简单。”
wow‑harness 的做法很直接:
不跟 AI 辩论,不让它有机会犯错。

它是怎么工作的?
核心思想只有一句话:
重要的事,不靠说,靠 hook。
一共16 个 hook,覆盖 7 个生命周期:
- SessionStart:加载上下文、重置风险状态
- PreToolUse:拦截危险操作、禁止审查 Agent 写代码
- PostToolUse:检测循环、追踪风险
- Stop:验证有没有真实产出(transcript + git diff)
- SessionEnd:反思、分析轨迹
不是“事后骂它”,而是当场拦下来。
👉 同一个 Agent不能既写代码又审代码。
3️⃣ 工具级隔离(最狠的一点)
审查 Agent 的工具清单里,根本没有 Edit / Write。
不是“请你不要改”,而是:
schema 层面直接删掉。
就像你让一个人去审试卷,但就是不给他红笔。
不是死板 checklist,而是能适应未知情况的判断框架。
用了之后,世界变了
| 没 wow‑harness | 有 wow‑harness |
|---|---|
| “跑测试了吗?” → “跑了”(其实没跑) | 机械化门禁检查 progress.json |
| 审查 Agent 顺手改代码 | 审查 Agent 物理上无法写文件 |
| “这个 PR 很简单,跳过审查吧” | Gate 2/4/6/8 强制独立审查 |
| 并行 session 互相污染 | 每个 session 独立 transcript |
| Agent 漂移去改无关代码 | 上下文路由精准限制作用域 |
一句话感受:
以前是我在监督 AI,现在是系统在替我监督 AI。
和其他方案对比
| 对比项 | Prompt 工程 | Auto‑review Bot | wow‑harness |
|---|---|---|---|
| 行为约束 | ❌ 靠自觉 | ⚠️ 事后检查 | ✅ 实时拦截 |
| 工具隔离 | ❌ | ❌ | ✅ |
| 审查独立性 | ❌ | ⚠️ | ✅ |
| 防漂移 | ❌ | ❌ | ✅ |
| 工程化程度 | 低 | 中 | 高 |
结论很明显:
Prompt 负责“引导”,
wow‑harness 负责“兜底”。
怎么装?
git clone https://github.com/NatureBlueee/wow-harness.git
cd wow-harness
python3 scripts/install/phase2_auto.py /path/to/your/project --tier drop-in
三个层级随你选:
| 层级 | 适合谁 |
|---|---|
| drop‑in | 想先试试看 |
| adapt | 想贴合项目 |
| mine | 深度定制、团队级 |
八、写在最后
我现在越来越相信一句话:
AI 不需要更聪明的提示词,它需要更严格的护栏。
那真的可以试试 wow‑harness。
转自:https://mp.weixin.qq.com/s/aSj1mxRGnXdHxxJi1kJ6eg