为什么 multi-agent 会失败

视频分析了多智能体系统在流程规划、协作效率及任务验证方面的失败模式，并探讨了群体智能与对抗机制的优化方向。

UP主: Zhiyong的生成式 · 时长: 4:55 · 🔗 B站原视频

发布: 2025-03-26 · 收录: 2025-04-11

标签: Multi-Agent · AI Agent · 大模型 · 人工智能 · 技术复盘

伯克利论文：多智能体为什么会失败

最近做 Agent 总感觉遇到一些障碍，今天看了伯克利的这篇文章，就为什么 Multi-Agent 会失败有很多共鸣吧，趁摸鱼的时间给大家分享一下。

在刚有 ChatGPT 的时候，社区就有不少多智能体的实践。想法其实也很自然，因为大模型现在很像人嘛，那我能不能用更多的大模型去模仿一个团队，去完成更复杂的任务。这篇文章拉了一批多智能体的工作，做了很多任务的测试，发现多智能体在很多任务上都会失败，甚至可能还不如单智能体的模式。他们总结了多智能体是怎么失败的，一共总结了有14种失败的模式，大概可以分成三类。

第一类：流程规划与角色分工问题

第一类是流程规划或者是角色分工类的问题，可能包含流程设计、角色定义、任务划分的这些问题。有些系统是固定的任务流程，有的是一个 planner 来做任务的规划和角色的分工。这类问题算是比较普遍，也不仅仅是在多 Agent 的情况下才有。

第二类：智能体之间的协作问题

第二类的问题是智能体之间的协作问题，比如智能体之间的互动效率比较低。文章举了一个多智能体写代码的例子，这个系统中有老板、产品和程序员的角色，用户让写一个简单的游戏。但是在系统实际运转的时候，智能体大部分时间都在讨论一些没有意义的内容，最终代码完成得也非常一般，就很消耗资源。

另外一个问题就是在交互的时候可能会忽略一些关键信息。比如说 A 智能体让 B 智能体去总结一篇文章的时候，总结出来的内容可能会丢失一些细节，但这个细节可能又对整个任务比较重要。

第三类：任务验证与终止问题

第三类是任务验证和终止类的问题。系统按照用户的要求把任务做出来了，但是怎么验证做得怎么样？很多系统中是没有这样的验证机制的。要么有验证机制也不怎么有用，或者是任务还没有做完就结束了。

这个就像现在 Manus，它的问题就比较严重。它能根据用户的要求输出一个很漂亮的文档或者是网页，但是仔细看内容其实是很容易出错的。这个错误不仅仅来源于幻觉，可能 Agent 去查资料的时候，会去用一些低质量的牛皮癣网站，或者是一些时效性比较差的内容。这个问题在现在的 AI 搜索中也是比较常见的，只不过在多 Agent 的场景下，这个问题会被进一步放大。

这三类问题每一种都需要花大量的时间去优化，而且每增加一个优化措施，可能又会给系统的复杂性带来更多的问题。文章也提出了一些解决的办法，但提升都不是很明显。

为什么多智能体不应模仿人类分工

整体而言，结合我自己的经验，它其实不应该是模仿人的协作分工的方式。人协作一方面是为了专业化的分工，每个人可以发挥自己的长处；另一方面也是为了任务并行，人多做事快一点。但这两点在大模型身上都不是很明显，大模型的能力也一直往通用化的方向在走。如果只是任务类型的不同，这种情况还不如把任务都塞到一个 Agent 里。

真正适合的场景：群体智能与对抗机制

那什么时候比较适合用这种多 Agent 的架构呢？我的观察是能够发挥出群体智能的一些场景，而不是简单的任务划分，比如引入 Agent 的对抗机制或者是相互启发的机制。

我举一个谷歌 Co-Scientist 的例子。这个系统里面其实就没有类似人的分工机制，而是引入了一个辩论机制，让 Agent 对不同的科研假设去做辩论，然后让另外一个 Agent 对这些辩论做两两比较，去淘汰一些低质量的内容，这样会让生成的内容更有深度一些。当然它还有些演进的 Agent，让不同的 idea 之间进行碰撞和启发。这种 Agent 之间做相互对抗或者是启发的场景，我认为是更有价值的。

今天天气真不错，很适合摸鱼，我先回去继续上班了，拜拜。