Anthropic 推出多代理 Harness，这可能是 AI 编程进入“长流程时代”的信号

Anthropic 这次放出来的，不是一个普通的 AI 编程新功能。

他们推出的 Harness，瞄准的是 AI 编程里最难啃的那一段：不是写一个函数，不是补一段代码，而是让 AI 去碰更长、更复杂、更接近真实研发流程的任务。

很多人已经发现了：AI 写个脚本、改个函数、补一段样板代码，确实挺猛。可一旦任务变长，比如“重构一个模块”“修掉一串连锁 bug”“按规范改造一整段业务流程”，体验就开始掉线。它不是不会写，而是很难在长任务里一直保持清醒。

Anthropic 这次给出的方向很明确：单个代理，开始不太够用了。下一阶段，拼的不是谁补全得更快，而是谁能把一个复杂任务拆成多个环节，让不同代理分工协作，最后把结果收回来。

这也是我觉得 Harness 值得单独拿出来讲的原因。它不只是 Anthropic 又发了个新东西，而是在把一件事摆到台面上：AI 编程正在从“对话式助手”，往“流程型系统”迁移。

真正卡住 AI 编程的，不是写不出代码，而是任务一长就容易跑偏

从现有信息看，Anthropic 这次瞄准的是长时程、复杂度更高的 AI 编程工作流。它不是让一个代理从头包到尾，而是试图把一个大任务拆开，让不同代理分别处理规划、实现、验证和收口。

单代理长任务失稳示意图

它为什么会往这个方向走，其实很好理解。

因为单代理做长任务，常见问题很集中：

上下文膨胀：聊着聊着，历史信息越来越长，重点越来越糊
规划漂移：一开始方向对，做着做着就偏题了
状态管理困难：改了哪些文件、为什么这么改、下一步该验证什么，容易乱

这些词听着有点技术，但翻成人话就是一句：
一个 AI 单独干活的时候，短跑很快，马拉松容易迷路。

这也是为什么很多人第一次用 AI 编程会觉得“惊艳”，但真拿去做稍微复杂一点的项目，又会觉得“怎么不太敢托付”。

它不是一个函数一个函数地不会写，而是不能稳定地把一个中长链条的任务走完。

多代理的本质，不是堆更多 AI，而是把“研发分工”搬给 AI

看到“多代理”这几个字，很多人第一反应是：是不是又来一个新概念包装？

说白了，不完全是。

这件事真正关键的地方，不是代理数量变多了，而是它开始模拟一个更像真实团队的工作方式。

现实里的软件开发，本来就不是一个人从头想到尾、一路闷头做完。它天然就有分工：有人先理解需求，有人拆任务，有人实现，有人验证，最后还得有人收口。

单代理的问题，是它经常把这些动作全塞在一个连续对话里。于是你看到的表面现象是“它在持续工作”，但底层其实是规划、执行、审查、修正全混在一起。一混，稳定性就掉。

Anthropic 的 Harness 想解决的，本质上是这个问题：
把不同阶段拆开，让每个代理只处理自己该处理的那一段上下文。

多代理协作框架示意图

这里面有两个词，特别值得记一下：

1. 上下文隔离

就是别让所有信息都堆在一个超长对话里。

规划代理关心的是目标、路径、依赖关系。
实现代理关心的是代码修改本身。
验证代理关心的是测试结果、是否满足约束。

每个人看自己该看的信息，噪音少，漂移也少。

2. 结果汇总

分工不是重点，重点是最后能不能收口。

很多所谓 Agent 演示，厉害在“能自己跑起来”；真正难的是跑完之后，能不能给出可交付、可检查、可追溯的结果。

所以我会把 Harness 看成一个挺明确的方向：
AI 编程不再只是“回答你”，而是开始“组织一次工作”。

这两者差很多。

这背后其实是在宣告：聊天式 AI 编程，快到天花板了

如果你这半年一直在看 AI 编程产品，会发现大家都在往一个方向拐。

早期大家比的是：

谁补全更快
谁生成代码更像样
谁对 IDE 的接入更顺滑

但现在真正的竞争点，正在往下面这些能力移动：

能不能理解整个项目，而不是单文件
能不能连续处理多步任务，而不是一问一答
能不能调用工具、跑命令、做验证
能不能把过程做得可控，而不是“试试看”

Anthropic 这次 Harness 的信号就在这里。

它不是单纯告诉你“多代理更强”，而是在承认一个现实：
靠一个聊天窗口承载复杂软件工程，本身就不太合理。

从聊天框到流程系统的迁移示意图

它其实把行业共识说透了：
AI 编程下一阶段，难点已经不是生成，而是编排。

不是“会不会写”，而是：

先做什么
谁来做什么
做完怎么验证
出错怎么回滚
最后怎么交付

你会发现，这些已经越来越像工程问题，而不是模型 demo 问题。

对开发者来说，真正要升级的不是提示词，而是任务设计能力

如果你是开发者，或者团队里已经开始用 AI 写代码，现在真正该调整的，不是先去追一个“多代理”概念，而是反过来审视自己的使用方式。

很多人现在用 AI 编程，还是这种姿势：

把一个模糊的大任务直接丢过去
希望它自己想清楚、自己写完、自己别出错
一旦翻车，就得出结论：AI 还是不行

但从 Harness 这种方向看，问题往往不是“AI 完全不行”，而是你给它的任务组织方式不对。

一个更接近未来的使用方式，可能是这样：

先把任务拆成阶段，而不是一句话全包
先让 AI 做规划，再让它执行
执行完必须有验证环节
每一步都尽量有明确输入和明确输出

你可以理解成：
人要开始学会像“调度员”一样使用 AI，而不是像“许愿机”一样使用 AI。

这其实就是 Harness 这类系统真正逼着人去学的新能力。

以后最吃香的开发者，不一定是最会手写每一行代码的人，而是最会：

定义问题
拆解任务
设计约束
审核结果
把 AI 放进可控流程的人

这不是鸡汤，而是 AI 编程从“会补全”走到“会参与流程”之后，很现实的能力迁移。

对团队和公司来说，能不能落地，决定因素也正在变

很多企业现在评估 AI 编程，已经不太只问一句“能提效多少”。他们更关心的是：

长任务能不能稳定执行
过程能不能审计
失败能不能中断和回退
不同阶段的权限能不能分开
结果能不能对接现有研发流程

单代理很容易做出“看起来很聪明”的体验。
但企业真正要的是“出了问题也知道问题在哪”。

多代理架构为什么会变重要？因为它天然更接近企业熟悉的那套治理逻辑：

分角色
分权限
分步骤
可观测
可验证

这也是我觉得 Harness 值得关注的第二层原因：
它不只是让 AI 编程更强，而是在让 AI 编程更像一个可管理的系统。

企业级 AI 编程治理示意图

这对真正要落地的人，比“模型分数又涨了”重要得多。

现在看 AI 编程，别再只盯着“写得像不像人”

这几年大家评判 AI 编程，很容易卡在一个老问题里：
“它写得好不好？像不像高级工程师？”

这个问题当然重要，但越来越不够用了。

因为一旦进入真实项目，决定成败的经常不是某一段代码写得漂不漂亮，而是：

它有没有按照正确顺序推进
有没有漏掉依赖
有没有破坏别的模块
有没有做验证
最后能不能顺利收口

也就是说，软件开发不是纯生成问题，而是流程控制问题。

Anthropic 这次的 Harness，本质上就在回答这个问题。

它告诉大家：别再把 AI 编程只理解成“自动写代码”。
更大的战场已经变成：自动推进工作流。

它直接影响你接下来该怎么判断市面上的 AI 编程产品：

不要只看它演示时写得多快。
更要看它能不能：

处理长任务
保持上下文清晰
做验证
管住流程
最后交付一个能落地的结果

谁先把这件事做稳，谁才更可能真正改变研发方式。

最后说一个更大的判断

我的判断是：AI 编程的下一轮竞争，已经不是“谁更像聊天机器人”，而是“谁更像一个能被信任的研发系统”。

Anthropic 推出 Harness，真正值得看的地方就在这里。
它不是单纯把 Agent 变多了，而是在告诉整个行业：从现在开始，AI 写代码这件事，真正难的部分，已经从“生成”走到了“组织”。