📚 文稿库

为什么 multi-agent 会失败

视频分析了多智能体系统在流程规划、协作效率及任务验证方面的失败模式,并探讨了群体智能与对抗机制的优化方向。

UP主: Zhiyong的生成式 · 时长: 4:55 · 🔗 B站原视频

标签: Multi-Agent · AI Agent · 大模型 · 人工智能 · 技术复盘

伯克利论文:多智能体为什么会失败

最近做 Agent 总感觉遇到一些障碍,今天看了伯克利的这篇文章,就为什么 Multi-Agent 会失败有很多共鸣吧,趁摸鱼的时间给大家分享一下。

在刚有 ChatGPT 的时候,社区就有不少多智能体的实践。想法其实也很自然,因为大模型现在很像人嘛,那我能不能用更多的大模型去模仿一个团队,去完成更复杂的任务。这篇文章拉了一批多智能体的工作,做了很多任务的测试,发现多智能体在很多任务上都会失败,甚至可能还不如单智能体的模式。他们总结了多智能体是怎么失败的,一共总结了有14种失败的模式,大概可以分成三类。

第一类:流程规划与角色分工问题

第一类是流程规划或者是角色分工类的问题,可能包含流程设计、角色定义、任务划分的这些问题。有些系统是固定的任务流程,有的是一个 planner 来做任务的规划和角色的分工。这类问题算是比较普遍,也不仅仅是在多 Agent 的情况下才有。

第二类:智能体之间的协作问题

第二类的问题是智能体之间的协作问题,比如智能体之间的互动效率比较低。文章举了一个多智能体写代码的例子,这个系统中有老板、产品和程序员的角色,用户让写一个简单的游戏。但是在系统实际运转的时候,智能体大部分时间都在讨论一些没有意义的内容,最终代码完成得也非常一般,就很消耗资源。

另外一个问题就是在交互的时候可能会忽略一些关键信息。比如说 A 智能体让 B 智能体去总结一篇文章的时候,总结出来的内容可能会丢失一些细节,但这个细节可能又对整个任务比较重要。

第三类:任务验证与终止问题

第三类是任务验证和终止类的问题。系统按照用户的要求把任务做出来了,但是怎么验证做得怎么样?很多系统中是没有这样的验证机制的。要么有验证机制也不怎么有用,或者是任务还没有做完就结束了。

这个就像现在 Manus,它的问题就比较严重。它能根据用户的要求输出一个很漂亮的文档或者是网页,但是仔细看内容其实是很容易出错的。这个错误不仅仅来源于幻觉,可能 Agent 去查资料的时候,会去用一些低质量的牛皮癣网站,或者是一些时效性比较差的内容。这个问题在现在的 AI 搜索中也是比较常见的,只不过在多 Agent 的场景下,这个问题会被进一步放大。

这三类问题每一种都需要花大量的时间去优化,而且每增加一个优化措施,可能又会给系统的复杂性带来更多的问题。文章也提出了一些解决的办法,但提升都不是很明显。

为什么多智能体不应模仿人类分工

整体而言,结合我自己的经验,它其实不应该是模仿人的协作分工的方式。人协作一方面是为了专业化的分工,每个人可以发挥自己的长处;另一方面也是为了任务并行,人多做事快一点。但这两点在大模型身上都不是很明显,大模型的能力也一直往通用化的方向在走。如果只是任务类型的不同,这种情况还不如把任务都塞到一个 Agent 里。

真正适合的场景:群体智能与对抗机制

那什么时候比较适合用这种多 Agent 的架构呢?我的观察是能够发挥出群体智能的一些场景,而不是简单的任务划分,比如引入 Agent 的对抗机制或者是相互启发的机制。

我举一个谷歌 Co-Scientist 的例子。这个系统里面其实就没有类似人的分工机制,而是引入了一个辩论机制,让 Agent 对不同的科研假设去做辩论,然后让另外一个 Agent 对这些辩论做两两比较,去淘汰一些低质量的内容,这样会让生成的内容更有深度一些。当然它还有些演进的 Agent,让不同的 idea 之间进行碰撞和启发。这种 Agent 之间做相互对抗或者是启发的场景,我认为是更有价值的。

今天天气真不错,很适合摸鱼,我先回去继续上班了,拜拜。

On this page