Anthropic 推出多代理 Harness,这可能是 AI 编程进入“长流程时代”的信号
Anthropic 这次放出来的,不是一个普通的 AI 编程新功能。
他们推出的 Harness,瞄准的是 AI 编程里最难啃的那一段:不是写一个函数,不是补一段代码,而是让 AI 去碰更长、更复杂、更接近真实研发流程的任务。
很多人已经发现了:AI 写个脚本、改个函数、补一段样板代码,确实挺猛。可一旦任务变长,比如“重构一个模块”“修掉一串连锁 bug”“按规范改造一整段业务流程”,体验就开始掉线。它不是不会写,而是很难在长任务里一直保持清醒。
Anthropic 这次给出的方向很明确:单个代理,开始不太够用了。下一阶段,拼的不是谁补全得更快,而是谁能把一个复杂任务拆成多个环节,让不同代理分工协作,最后把结果收回来。
这也是我觉得 Harness 值得单独拿出来讲的原因。它不只是 Anthropic 又发了个新东西,而是在把一件事摆到台面上:AI 编程正在从“对话式助手”,往“流程型系统”迁移。
真正卡住 AI 编程的,不是写不出代码,而是任务一长就容易跑偏
从现有信息看,Anthropic 这次瞄准的是长时程、复杂度更高的 AI 编程工作流。它不是让一个代理从头包到尾,而是试图把一个大任务拆开,让不同代理分别处理规划、实现、验证和收口。
它为什么会往这个方向走,其实很好理解。
因为单代理做长任务,常见问题很集中:
- 上下文膨胀:聊着聊着,历史信息越来越长,重点越来越糊
- 规划漂移:一开始方向对,做着做着就偏题了
- 状态管理困难:改了哪些文件、为什么这么改、下一步该验证什么,容易乱
这些词听着有点技术,但翻成人话就是一句:
一个 AI 单独干活的时候,短跑很快,马拉松容易迷路。
这也是为什么很多人第一次用 AI 编程会觉得“惊艳”,但真拿去做稍微复杂一点的项目,又会觉得“怎么不太敢托付”。
它不是一个函数一个函数地不会写,而是不能稳定地把一个中长链条的任务走完。
多代理的本质,不是堆更多 AI,而是把“研发分工”搬给 AI
看到“多代理”这几个字,很多人第一反应是:是不是又来一个新概念包装?
说白了,不完全是。
这件事真正关键的地方,不是代理数量变多了,而是它开始模拟一个更像真实团队的工作方式。
现实里的软件开发,本来就不是一个人从头想到尾、一路闷头做完。它天然就有分工:有人先理解需求,有人拆任务,有人实现,有人验证,最后还得有人收口。
单代理的问题,是它经常把这些动作全塞在一个连续对话里。于是你看到的表面现象是“它在持续工作”,但底层其实是规划、执行、审查、修正全混在一起。一混,稳定性就掉。
Anthropic 的 Harness 想解决的,本质上是这个问题:
把不同阶段拆开,让每个代理只处理自己该处理的那一段上下文。
这里面有两个词,特别值得记一下:
1. 上下文隔离
就是别让所有信息都堆在一个超长对话里。
规划代理关心的是目标、路径、依赖关系。
实现代理关心的是代码修改本身。
验证代理关心的是测试结果、是否满足约束。
每个人看自己该看的信息,噪音少,漂移也少。
2. 结果汇总
分工不是重点,重点是最后能不能收口。
很多所谓 Agent 演示,厉害在“能自己跑起来”;真正难的是跑完之后,能不能给出可交付、可检查、可追溯的结果。
所以我会把 Harness 看成一个挺明确的方向:
AI 编程不再只是“回答你”,而是开始“组织一次工作”。
这两者差很多。
这背后其实是在宣告:聊天式 AI 编程,快到天花板了
如果你这半年一直在看 AI 编程产品,会发现大家都在往一个方向拐。
早期大家比的是:
- 谁补全更快
- 谁生成代码更像样
- 谁对 IDE 的接入更顺滑
但现在真正的竞争点,正在往下面这些能力移动:
- 能不能理解整个项目,而不是单文件
- 能不能连续处理多步任务,而不是一问一答
- 能不能调用工具、跑命令、做验证
- 能不能把过程做得可控,而不是“试试看”
Anthropic 这次 Harness 的信号就在这里。
它不是单纯告诉你“多代理更强”,而是在承认一个现实:
靠一个聊天窗口承载复杂软件工程,本身就不太合理。
它其实把行业共识说透了:
AI 编程下一阶段,难点已经不是生成,而是编排。
不是“会不会写”,而是:
- 先做什么
- 谁来做什么
- 做完怎么验证
- 出错怎么回滚
- 最后怎么交付
你会发现,这些已经越来越像工程问题,而不是模型 demo 问题。
对开发者来说,真正要升级的不是提示词,而是任务设计能力
如果你是开发者,或者团队里已经开始用 AI 写代码,现在真正该调整的,不是先去追一个“多代理”概念,而是反过来审视自己的使用方式。
很多人现在用 AI 编程,还是这种姿势:
- 把一个模糊的大任务直接丢过去
- 希望它自己想清楚、自己写完、自己别出错
- 一旦翻车,就得出结论:AI 还是不行
但从 Harness 这种方向看,问题往往不是“AI 完全不行”,而是你给它的任务组织方式不对。
一个更接近未来的使用方式,可能是这样:
- 先把任务拆成阶段,而不是一句话全包
- 先让 AI 做规划,再让它执行
- 执行完必须有验证环节
- 每一步都尽量有明确输入和明确输出
你可以理解成:
人要开始学会像“调度员”一样使用 AI,而不是像“许愿机”一样使用 AI。
这其实就是 Harness 这类系统真正逼着人去学的新能力。
以后最吃香的开发者,不一定是最会手写每一行代码的人,而是最会:
- 定义问题
- 拆解任务
- 设计约束
- 审核结果
- 把 AI 放进可控流程的人
这不是鸡汤,而是 AI 编程从“会补全”走到“会参与流程”之后,很现实的能力迁移。
对团队和公司来说,能不能落地,决定因素也正在变
很多企业现在评估 AI 编程,已经不太只问一句“能提效多少”。他们更关心的是:
- 长任务能不能稳定执行
- 过程能不能审计
- 失败能不能中断和回退
- 不同阶段的权限能不能分开
- 结果能不能对接现有研发流程
单代理很容易做出“看起来很聪明”的体验。
但企业真正要的是“出了问题也知道问题在哪”。
多代理架构为什么会变重要?因为它天然更接近企业熟悉的那套治理逻辑:
- 分角色
- 分权限
- 分步骤
- 可观测
- 可验证
这也是我觉得 Harness 值得关注的第二层原因:
它不只是让 AI 编程更强,而是在让 AI 编程更像一个可管理的系统。
这对真正要落地的人,比“模型分数又涨了”重要得多。
现在看 AI 编程,别再只盯着“写得像不像人”
这几年大家评判 AI 编程,很容易卡在一个老问题里:
“它写得好不好?像不像高级工程师?”
这个问题当然重要,但越来越不够用了。
因为一旦进入真实项目,决定成败的经常不是某一段代码写得漂不漂亮,而是:
- 它有没有按照正确顺序推进
- 有没有漏掉依赖
- 有没有破坏别的模块
- 有没有做验证
- 最后能不能顺利收口
也就是说,软件开发不是纯生成问题,而是流程控制问题。
Anthropic 这次的 Harness,本质上就在回答这个问题。
它告诉大家:别再把 AI 编程只理解成“自动写代码”。
更大的战场已经变成:自动推进工作流。
它直接影响你接下来该怎么判断市面上的 AI 编程产品:
不要只看它演示时写得多快。
更要看它能不能:
- 处理长任务
- 保持上下文清晰
- 做验证
- 管住流程
- 最后交付一个能落地的结果
谁先把这件事做稳,谁才更可能真正改变研发方式。
最后说一个更大的判断
我的判断是:AI 编程的下一轮竞争,已经不是“谁更像聊天机器人”,而是“谁更像一个能被信任的研发系统”。
Anthropic 推出 Harness,真正值得看的地方就在这里。
它不是单纯把 Agent 变多了,而是在告诉整个行业:从现在开始,AI 写代码这件事,真正难的部分,已经从“生成”走到了“组织”。