Wow‑harness 让 AI 自己写代码,人几乎不用管:这套系统用机械约束驯服 AI Agent

摘要: 如果你最近在用Claude Code写项目,大概率会有这种体验: 它写得很快,你也觉得很省事。 直到有一天你发现: 👉 测试根本没跑 👉 文件被悄悄改了 👉 一个 bug 修成了三个 bug 我也被坑过。后来遇到了wow‑harness,才意识到一件事: 不是 AI 不行,是我们一直在用“嘴”管它。...

如果你最近在用Claude Code写项目,大概率会有这种体验:

它写得很快,你也觉得很省事。

直到有一天你发现:

👉 测试根本没跑

👉 文件被悄悄改了

👉 一个 bug 修成了三个 bug

我也被坑过。后来遇到了wow‑harness,才意识到一件事:

不是 AI 不行,是我们一直在用“嘴”管它。

wow‑harness 是怎么来的?

一句话概括:

wow‑harness 是 Claude Code 的“治理层”。

作者发现一个残酷事实:

方式 遵从率
CLAUDE.md 里的指令 ~20%
PreToolUse Hook 100%

它到底解决了什么问题?

假装完成

“测试全过了。”

顺手乱改

“这个改动很简单。”

wow‑harness 的做法很直接:

不跟 AI 辩论,不让它有机会犯错。

它是怎么工作的?

核心思想只有一句话:

重要的事,不靠说,靠 hook。

一共16 个 hook,覆盖 7 个生命周期:

  1. SessionStart:加载上下文、重置风险状态
  2. PreToolUse:拦截危险操作、禁止审查 Agent 写代码
  3. PostToolUse:检测循环、追踪风险
  4. Stop:验证有没有真实产出(transcript + git diff)
  5. SessionEnd:反思、分析轨迹

不是“事后骂它”,而是当场拦下来。

👉 同一个 Agent不能既写代码又审代码。

3️⃣ 工具级隔离(最狠的一点)

审查 Agent 的工具清单里,根本没有 Edit / Write。

不是“请你不要改”,而是:

schema 层面直接删掉。

就像你让一个人去审试卷,但就是不给他红笔。

不是死板 checklist,而是能适应未知情况的判断框架。

用了之后,世界变了

没 wow‑harness 有 wow‑harness
“跑测试了吗?” → “跑了”(其实没跑) 机械化门禁检查 progress.json
审查 Agent 顺手改代码 审查 Agent 物理上无法写文件
“这个 PR 很简单,跳过审查吧” Gate 2/4/6/8 强制独立审查
并行 session 互相污染 每个 session 独立 transcript
Agent 漂移去改无关代码 上下文路由精准限制作用域

一句话感受:

以前是我在监督 AI,现在是系统在替我监督 AI。

和其他方案对比

对比项 Prompt 工程 Auto‑review Bot wow‑harness
行为约束 ❌ 靠自觉 ⚠️ 事后检查 ✅ 实时拦截
工具隔离
审查独立性 ⚠️
防漂移
工程化程度

结论很明显:

Prompt 负责“引导”,

wow‑harness 负责“兜底”。

怎么装?

git clone https://github.com/NatureBlueee/wow-harness.git
cd wow-harness
python3 scripts/install/phase2_auto.py /path/to/your/project --tier drop-in

三个层级随你选:

层级 适合谁
drop‑in 想先试试看
adapt 想贴合项目
mine 深度定制、团队级

八、写在最后

我现在越来越相信一句话:

AI 不需要更聪明的提示词,它需要更严格的护栏。

那真的可以试试 wow‑harness。

转自:https://mp.weixin.qq.com/s/aSj1mxRGnXdHxxJi1kJ6eg