Bili-Docs
技术工具AI 应用

史上最疯狂的科研直播!学术终结者“FARS”杀疯了!

视频介绍了全自动AI科研系统FARS,它能自主完成从选题、实验到论文撰写的全流程,展示了AI对科研模式的变革。

UP主: Lau博士的云组会 · 时长: 8:33 · 🔗 B站原视频

发布: 2026-02-25 · 收录: 2026-02-27

标签: AI科学家 · 自动化科研 · 大模型 · 论文写作 · 人工智能

春节期间的一场“硬核科研直播”

搞 AI 的同学天塌了。就在这个春节,AI 圈偷偷上演了一场最硬核的直播,看了之后我本人都非常焦虑,必须马上给屏幕前的各位专家汇报一下。

这次的主角不是春晚的机器人,而是一位全天候工作的 AI 科学家,名字叫 FARS。这套由 Sakana AI 打造的全自动系统,在连续 200 多个小时的公开运行中,自己提出 idea、写代码、做实验,搞出 100 多篇论文。而现在这套系统仍在公开直播持续产出中。

算下来,在这座科研工厂里,每两小时就会有一篇论文产出。在机器用算力换论文面前,有人质疑是灌水,但更多人给出的是超出预期的评价。更重要的是,代码是真的能跑通,并且没有通篇幻觉。

那么我们就一起来看看这个 FARS 到底是什么,它写的论文质量究竟如何,未来我们做科研还有意义吗。点赞收藏方便回看,接下来一起进入本期云组会。

FARS 是什么:并行多 Agent 的全自动科研流水线

FARS 是一个并行的多 Agent 系统,包含构思、规划、实验、写作四个模块。

构思 Agent 主要负责调研文献和生成假设。它可以访问公开的论文库和 GitHub 的代码仓。生成的假设要先通过自动化审查,只有审查通过的假设才会转给规划模块,保证任务基本可行。

规划 Agent 的职责是把 idea 落地,设计实验方案,确定模型、数据集和评估指标。

实验 Agent 负责编写和运行代码。它可以调用 160 张 NVIDIA GPU 集群,也能调用各类模型接口,产出数据和图表,并具备自我纠错能力。哪怕是负面结果,它也会如实报告。

最后一步是写作。写作 Agent 负责写论文,把结果整理成短论文的格式,无论结果正面还是负面,都会完整记录。最终论文包含摘要、方法、实验和分析。

产能与成本:9.5 天 100 篇论文

FARS 基于 160 张显卡集群,在 9.5 天内生成了 244 个假设,完成 100 篇论文,累计消耗 114 亿 token,总成本约 10.4 万美元。全程无人干预。

平均下来,每一篇论文的成本约 1000 美元,耗时大概是 2 小时 17 分。对比人类科研常见的 3~6 个月周期,FARS 的产能可以说是降维打击。

不过每篇论文 1 亿多 token 的消耗,也表明 FARS 仍处于算力换智能的阶段。

论文质量:按 ICLR 标准评分,平均分超过人类投稿均值

FARS 的团队使用斯坦福开发的 AI 审稿系统(由吴恩达牵头研发)。它的评分结果与人类高度一致,达到了人类专家的审稿水平。

FARS 按照 ICLR 的标准对这 100 篇论文进行统一打分。结果显示,FARS 的论文平均得分为 5.05 分,偶尔也有 6 分。ICLR 投稿的平均分是 4.21 分,最终被接收论文的平均分是 5.39 分。

显然,FARS 的平均分已经明显高于人类投稿的整体平均水平,距离被接收的平均线差距也不大。这个成绩已经比很多入门研究者都要强。它不算“有经验”,但肯定不差。

论文案例 1(FA0201):解决 MoE 推理显存浪费

第一篇 id 是 FA0201,解决的是大模型推理中 MoE 架构的显存浪费问题。

当前的混合专家模型推理时需要把 token 分发到不同的专家上。为了加速,工程师会用 CUDA Graph 技术,但它要求显存缓冲区大小必须固定。为了保险起见,传统方法只能按最坏情况分配显存。

FARS 通过分析发现,MoE 的路由分布是重尾分布:绝大多数时候 token 数量很少,但极少数情况下突然暴增。传统方法为了那极少的暴增,导致 88% 的缓冲区平时是空的,全是浪费。

FARS 的思路很工程化:做了个拆分策略。第一次按 99% 的概率分配小缓冲区,搞定绝大多数 token;第二次专门处理那 1% 溢出的 token。它还发现,哪怕第二次没溢出,直接跑空一次,也比判断有没有溢出再决定跑不跑更快,因为避免了同步开销。

结果是在 BERT 上延迟降低了 33.9%,从 1077 微秒降到了 712 微秒。这说明大模型很擅长在既定框架下,通过数据分析找到最优解。

论文案例 2(FA0218):让 Repetition Prompt 不再把 KV Cache 翻倍

第二篇文章 id 是 FA0218。大家都知道 Repetition Prompt 能提高模型准确率,比如把问题读两遍,但代价是显存占用会翻倍,因为 KV cache 变大了。

FARS 发现一个漏洞:解码的时候,第一份生成的 KV cache 其实是冗余的,因为第二份的 prompt 在计算时,注意力机制已经看过第一份了,信息已经编码进去了。

它的方案很简单:prefill 两次,在解码时只保留第二份的缓存,把第一份的切片丢掉。但如果直接丢掉前半部分,模型会以为当前是第一个 token,其实是第 N 个 token。

FARS 的方案自动修正了位置编码的偏移,确保模型以为自己还在完整序列里。

论文案例 3(FA0121):失败案例也如实报告,诊断到位

FARS 当然也有失手。比如 id 是 FA0121:它盯上了 DeepSeek 新提出的 n-gram 稀疏架构,抓到了一个很“研究味”的问题——冷热偏置。为了打破马太效应,FARS 尝试通过反事实门控监督来修复架构中的偏置问题。

但方案效果并不好。实验数据显示,oracle AUC 反而从 0.549 退化到了 0.528。这表明应对 AI 偏见问题,仅在输出层面添加监督信号远远不够,必须从模型架构层面寻求突破。

论文的剖析切中了要害:gate 函数和 n-gram embedding 的学习是一个复杂的协同优化过程,二者紧密耦合,无法通过简单的监督损失根治。

这篇工作的价值在于,FARS 没有掩盖负面结果,没有先射箭后画靶,而是通过严密的诊断性实验反思方法的失败。这说明 FARS 很诚实,也是当前学术界稀缺的品质。

FARS 意味着什么:自动化科研进入现实

ChatGPT 的核心贡献者之一、OpenAI 的 Wojciech Zaremba 在 Why Not TV 的访谈中提到:idea 是廉价的,真正的挑战在于如何把这些 idea 快速、正确地实现和迭代。

FARS 的自动化论文产出,恰恰证明了这个观点的正确性。FARS 已经能够在相对稳定的运行条件下,持续产出具备一定学术竞争力的短论文,并且开始展现出基础的自我纠错与负结果报告能力。

这意味着自动化科研第一次以一种可连续运转的系统形态,正式进入现实。虽然目前 FARS 还不够擅长在复杂假设空间中做出真正具有突破性的研究取舍,在算力利用率上也还停留在明显的“算力换智能”阶段,但随着大模型和 Agent 发展进化,FARS 只会越来越强。

曾经李沐提到,少数的伟大工作诞生于众多平凡的工作,不应对后者做过多批判。但到了今天,FARS 用每篇 1000 美元的论文成本告诉我们:灌水在工业机器面前很快变得毫无意义。

作为普通科研工作者,拥有像 Alex 或者何凯明这样大师般的直觉,非常需要积累和运气;而 FARS 的论文产能是碾压级的。说老实话,即便是我也同样感到恐慌,但恐惧唯一的解药就是直面它、战胜它。

虽然现在我们还用不上 FARS,可这样的工具未来只会越来越多。我们要做的是快速了解它、掌握它,让它成为我们工作流的一环。

结尾

以上就是本期视频的全部内容。欢迎关注我们,成为云组会的一员。

On this page