

为什么它会成为"第三次工程化"?
近几个月,如果你在关注 AI 工程圈的讨论,一定会听到 Harness 工程这个词。
不少文章把它神化了。但说老实话,它其实就是一个必然的阶段。
让我用一个框架来解释这个必然性,以及为什么作为独立开发者或创业团队,你现在应该开始关注它。
三次工程化的演进脉络
第一次:Prompt 工程(让模型听懂你)
2022-2023 年,ChatGPT 出来了。大家都在做一件事:怎么写提示词让模型给我想要的回答。
这是对的。Prompt 工程解决的是一个最基础的问题:人-模型的沟通问题。
但它有个缺陷:每次都是一轮对话。你给一个 Prompt,模型给一个回答,完事儿。
对于简单的任务(写文案、改代码段、翻译文章),这够了。但如果你要做一个需要多步骤、需要判断、需要容错的系统,Prompt 工程就开始暴露瓶颈了。
一旦加入时间、上下文、外部数据的依赖,Prompt 工程的天花板就出现了。
第二次:Context 工程(让模型拿到对的信息)
2023 年下半年开始,大家发现了一个规律:给模型的信息质量,往往比 Prompt 怎么写更重要。
于是 RAG(检索增强生成)、向量数据库、分割策略、检索排序,这些技术开始被广泛讨论。
Context 工程的核心思想是:与其反复调 Prompt,不如确保模型看到的上下文是对的。
这个阶段确实解决了一大类问题。特别是对于有明确知识库的应用(客服、文档 QA、行业咨询),Context 工程能明显提升准确率。
但这里又出现了第二个矛盾:
即使信息是对的,模型也不一定能稳定地利用它。
特别是当系统要做编排、决策、工具调用时,单纯提升 Context 质量,还不够。你需要的是整个系统的逻辑健壮性。
第三次:Harness 工程(让系统在真实环境里可控、可测、可迭代)
这就引出了 Harness 工程。
如果说 Prompt 工程是"和模型聊天",Context 工程是"给模型喂数据",那 Harness 工程就是"给系统装上方向盘和刹车"。
Harness,英文字面是"采集、驾驶、掌控"。它的核心不是让模型更聪明,而是让 Agent 系统可以在生产环境里安全、稳定、可观测地运行。
三个维度:
- 任务维度:定义清晰的任务边界、成功标准、失败回退策略
- 执行维度:工具编排、状态管理、重试机制、超时处理
- 治理维度:离线评测、在线监控、版本管理、成本与风控
为什么现在必须做这个阶段
作为一个做过几个 AI 项目的独立开发者,我见过很多项目卡在同一个地方:
Demo 非常惊艳,但一旦上线,就开始掉坑。
原因往往不是模型不够强,而是系统没有预案。
比如:
- Agent 决策了半小时还没结果,怎么办?
- 工具调用返回了一个脏数据,模型吞了,怎么办?
- 三个 Subagent 互相反复, 陷入死循环,怎么办?
- 成本莫名其妙翻了 10 倍,怎么发现?
这些不是 Prompt 问题,也不是数据库问题。这是工程问题。
Harness 工程的目的,就是把这些问题从线上故障,变成线下可测试的 case。
一个可执行的框架
如果你要开始做 Harness 工程,我建议从这三步开始:
第一步:写任务契约
在你写一行 Agent 代码前,先定义清楚:
|
|
这听起来有点麻烦,但它会救你的命。因为一旦定义清楚了,你就知道怎么写评测 case。
第二步:补齐失败路径
最常见的失败场景:
- 超时:设置 deadline,到点就中断,返回"下次再试"
- 工具失败:有没有降级方案,缓存方案,人工兜底方案
- 决策偏航:有没有"我好像走错了"的自纠正
- 成本爆炸:是否限流,是否降低采样
把这些都想清楚,失败就不再是"惊吓",而是"计划之内"。
第三步:建立观测
- 离线评测:收集 10-30 个高风险样本,定期跑评测集
- 在线指标:成功率、平均延迟、成本、人工接管率、用户投诉率
- 版本管理:确保能快速回滚,而不是裸奔上线
这三个东西一起才叫"Harness"。没有观测,你就盲飞。
现在就该开始的理由
我给你三个信号,判断你是否已经进入需要 Harness 工程的阶段:
- 你开始谈 SLA(成功率 99%,延迟 <2s),而不是只说"效果还不错"
- 你有线上回退计划,而不是"改个 Prompt 试试"
- 你关注稳定收益,而不只是首轮的效果惊喜
如果这三个中有任何一个是真的,那你就已经进入 Harness 工程的范畴了。
对独立开发者/小团队的建议
我知道很多人听到"工程"就头大。但 Harness 工程其实不难,关键是思路对。
你不需要:
- 大团队
- 复杂的基础设施
- 事先投入很多时间
你需要:
- 在写 Agent 逻辑之前,先想想"会怎么失败"
- 用简单的文本或 CSV 做离线评测
- 用一个简单的 dashboard(比如 Google Sheets)记录关键指标
一个人,一周时间,就能搭出一个最小可用的 Harness 框架。
小结
Prompt 工程决定你能不能开始。
Context 工程决定你跑得快不快。
Harness 工程决定你能不能长期活下来。
如果你现在还只在调 Prompt,也不用急。但如果你的 Agent 已经进入生产阶段,是时候开始思考 Harness 了。
不是为了创意,是为了稳定。