史上最疯狂的科研直播！学术终结者“FARS”杀疯了！

视频介绍了全自动AI科研系统FARS，它能自主完成从选题、实验到论文撰写的全流程，展示了AI对科研模式的变革。

UP主: Lau博士的云组会 · 时长: 8:33 · 🔗 B站原视频

发布: 2026-02-25 · 收录: 2026-02-27

标签: AI科学家 · 自动化科研 · 大模型 · 论文写作 · 人工智能

春节期间的一场“硬核科研直播”

搞 AI 的同学天塌了。就在这个春节，AI 圈偷偷上演了一场最硬核的直播，看了之后我本人都非常焦虑，必须马上给屏幕前的各位专家汇报一下。

这次的主角不是春晚的机器人，而是一位全天候工作的 AI 科学家，名字叫 FARS。这套由 Sakana AI 打造的全自动系统，在连续 200 多个小时的公开运行中，自己提出 idea、写代码、做实验，搞出 100 多篇论文。而现在这套系统仍在公开直播持续产出中。

算下来，在这座科研工厂里，每两小时就会有一篇论文产出。在机器用算力换论文面前，有人质疑是灌水，但更多人给出的是超出预期的评价。更重要的是，代码是真的能跑通，并且没有通篇幻觉。

那么我们就一起来看看这个 FARS 到底是什么，它写的论文质量究竟如何，未来我们做科研还有意义吗。点赞收藏方便回看，接下来一起进入本期云组会。

FARS 是什么：并行多 Agent 的全自动科研流水线

FARS 是一个并行的多 Agent 系统，包含构思、规划、实验、写作四个模块。

构思 Agent 主要负责调研文献和生成假设。它可以访问公开的论文库和 GitHub 的代码仓。生成的假设要先通过自动化审查，只有审查通过的假设才会转给规划模块，保证任务基本可行。

规划 Agent 的职责是把 idea 落地，设计实验方案，确定模型、数据集和评估指标。

实验 Agent 负责编写和运行代码。它可以调用 160 张 NVIDIA GPU 集群，也能调用各类模型接口，产出数据和图表，并具备自我纠错能力。哪怕是负面结果，它也会如实报告。

最后一步是写作。写作 Agent 负责写论文，把结果整理成短论文的格式，无论结果正面还是负面，都会完整记录。最终论文包含摘要、方法、实验和分析。

产能与成本：9.5 天 100 篇论文

FARS 基于 160 张显卡集群，在 9.5 天内生成了 244 个假设，完成 100 篇论文，累计消耗 114 亿 token，总成本约 10.4 万美元。全程无人干预。

平均下来，每一篇论文的成本约 1000 美元，耗时大概是 2 小时 17 分。对比人类科研常见的 3～6 个月周期，FARS 的产能可以说是降维打击。

不过每篇论文 1 亿多 token 的消耗，也表明 FARS 仍处于算力换智能的阶段。

论文质量：按 ICLR 标准评分，平均分超过人类投稿均值

FARS 的团队使用斯坦福开发的 AI 审稿系统（由吴恩达牵头研发）。它的评分结果与人类高度一致，达到了人类专家的审稿水平。

FARS 按照 ICLR 的标准对这 100 篇论文进行统一打分。结果显示，FARS 的论文平均得分为 5.05 分，偶尔也有 6 分。ICLR 投稿的平均分是 4.21 分，最终被接收论文的平均分是 5.39 分。

显然，FARS 的平均分已经明显高于人类投稿的整体平均水平，距离被接收的平均线差距也不大。这个成绩已经比很多入门研究者都要强。它不算“有经验”，但肯定不差。

论文案例 1（FA0201）：解决 MoE 推理显存浪费

第一篇 id 是 FA0201，解决的是大模型推理中 MoE 架构的显存浪费问题。

当前的混合专家模型推理时需要把 token 分发到不同的专家上。为了加速，工程师会用 CUDA Graph 技术，但它要求显存缓冲区大小必须固定。为了保险起见，传统方法只能按最坏情况分配显存。

FARS 通过分析发现，MoE 的路由分布是重尾分布：绝大多数时候 token 数量很少，但极少数情况下突然暴增。传统方法为了那极少的暴增，导致 88% 的缓冲区平时是空的，全是浪费。

FARS 的思路很工程化：做了个拆分策略。第一次按 99% 的概率分配小缓冲区，搞定绝大多数 token；第二次专门处理那 1% 溢出的 token。它还发现，哪怕第二次没溢出，直接跑空一次，也比判断有没有溢出再决定跑不跑更快，因为避免了同步开销。

结果是在 BERT 上延迟降低了 33.9%，从 1077 微秒降到了 712 微秒。这说明大模型很擅长在既定框架下，通过数据分析找到最优解。

论文案例 2（FA0218）：让 Repetition Prompt 不再把 KV Cache 翻倍

第二篇文章 id 是 FA0218。大家都知道 Repetition Prompt 能提高模型准确率，比如把问题读两遍，但代价是显存占用会翻倍，因为 KV cache 变大了。

FARS 发现一个漏洞：解码的时候，第一份生成的 KV cache 其实是冗余的，因为第二份的 prompt 在计算时，注意力机制已经看过第一份了，信息已经编码进去了。

它的方案很简单：prefill 两次，在解码时只保留第二份的缓存，把第一份的切片丢掉。但如果直接丢掉前半部分，模型会以为当前是第一个 token，其实是第 N 个 token。

FARS 的方案自动修正了位置编码的偏移，确保模型以为自己还在完整序列里。

论文案例 3（FA0121）：失败案例也如实报告，诊断到位

FARS 当然也有失手。比如 id 是 FA0121：它盯上了 DeepSeek 新提出的 n-gram 稀疏架构，抓到了一个很“研究味”的问题——冷热偏置。为了打破马太效应，FARS 尝试通过反事实门控监督来修复架构中的偏置问题。

但方案效果并不好。实验数据显示，oracle AUC 反而从 0.549 退化到了 0.528。这表明应对 AI 偏见问题，仅在输出层面添加监督信号远远不够，必须从模型架构层面寻求突破。

论文的剖析切中了要害：gate 函数和 n-gram embedding 的学习是一个复杂的协同优化过程，二者紧密耦合，无法通过简单的监督损失根治。

这篇工作的价值在于，FARS 没有掩盖负面结果，没有先射箭后画靶，而是通过严密的诊断性实验反思方法的失败。这说明 FARS 很诚实，也是当前学术界稀缺的品质。

FARS 意味着什么：自动化科研进入现实

ChatGPT 的核心贡献者之一、OpenAI 的 Wojciech Zaremba 在 Why Not TV 的访谈中提到：idea 是廉价的，真正的挑战在于如何把这些 idea 快速、正确地实现和迭代。

FARS 的自动化论文产出，恰恰证明了这个观点的正确性。FARS 已经能够在相对稳定的运行条件下，持续产出具备一定学术竞争力的短论文，并且开始展现出基础的自我纠错与负结果报告能力。

这意味着自动化科研第一次以一种可连续运转的系统形态，正式进入现实。虽然目前 FARS 还不够擅长在复杂假设空间中做出真正具有突破性的研究取舍，在算力利用率上也还停留在明显的“算力换智能”阶段，但随着大模型和 Agent 发展进化，FARS 只会越来越强。

曾经李沐提到，少数的伟大工作诞生于众多平凡的工作，不应对后者做过多批判。但到了今天，FARS 用每篇 1000 美元的论文成本告诉我们：灌水在工业机器面前很快变得毫无意义。

作为普通科研工作者，拥有像 Alex 或者何凯明这样大师般的直觉，非常需要积累和运气；而 FARS 的论文产能是碾压级的。说老实话，即便是我也同样感到恐慌，但恐惧唯一的解药就是直面它、战胜它。

虽然现在我们还用不上 FARS，可这样的工具未来只会越来越多。我们要做的是快速了解它、掌握它，让它成为我们工作流的一环。

结尾

以上就是本期视频的全部内容。欢迎关注我们，成为云组会的一员。

史上最疯狂的科研直播！学术终结者“FARS”杀疯了！

On this page