📚 文稿库

翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4

深度对话 OpenAI 核心研究员翁家翌,分享其在 GPT 系列模型研发中的贡献、求学成长经历及对开源精神的理解。

UP主: WhynotTV · 时长: 2h02m · 🔗 B站原视频

标签: OpenAI · 人工智能 · 人物访谈 · 强化学习 · 职场成长

核心贡献与打破信息差

主持人: 很多模型 release 都有你的名字。

翁家翌: 因为我在 OpenAI 内部搭了整个 post-training 的 RL infra。

主持人: 所以整个 post-training 的 RL infra,你是最核心的贡献者了。

翁家翌: 是的。我觉得应该打破信息差。如果你在清华生存的话,信息差是一个很有用的东西,但是我觉得每个人都应该平等地拥有这个信息。哪怕当时有了现代的认知,还是做不出来。我不想发 paper,我觉得发 paper 完全没有意义。幻方当时说要搞一个 AI lab,就是后面的 DeepSeek,我当时是拿了 offer 的。如果你想进工业界,那么读 PhD 就是浪费生命。教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。每家的 infra 都有不同程度的 bug,谁修的 bug 越多,谁的模型训得就越好。

主持人: 大家好,本期嘉宾翁家翌。他于 2022 年加入 OpenAI,并且是 OpenAI 1 系列模型背后的核心贡献者。从 ChatGPT、GPT-4o 再到 GPT-5,你能看到的每一个模型跃迁背后都有他的身影。他的核心贡献可以被总结为三个关键词:强化学习、Post-training、Infra。但对我来说,翁家翌不只是把模型做得更强的人。在加入 OpenAI 之前,他就已经用开源和代码影响过无数人。从在清华开源作业与资料试图打破信息差,到开源强化学习框架天授(Tianshou),做出免费签证查询系统(tuixue.online),他把代码工具视作一种慈善。在这期播客,我们会从翁家翌的童年聊起,到清华与 CMU 的求学之路,再到 2022 年加入 OpenAI 之后的亲身经历。站在世界 AI 风暴中心,他看见了什么?这里是 WhynotTV Podcast,现在请和我一起进入翁家翌的世界。

主持人: Hello 家翌,欢迎你来到 WhynotTV Podcast。我觉得这期很奇妙的一点是,我在给你准备这期的 outline 的时候,我用的是 GPT-5 的 deep research。相当于你自己作为核心开发者的产品和模型,它们自己在做 deep research 想这些问题来采访你,这是一个比较奇妙的闭环。今天我们会谈到很多部分,从你的童年成长、清华的本科经历到 CMU 读研,再到 2022 年加入 OpenAI 至今的核心开发经历。我想先从最早你的童年开始,能不能给我讲讲你小时候是一个什么样的小孩?

童年成长与数学启蒙

翁家翌: 我小时候特别喜欢奥数。我从一年级开始就学奥数,因为我爸妈让我去听了进修校的奥数课跟语文课。我对语文完全不感兴趣,但我对奥数非常感兴趣,从一年级一直上到六年级,初中也是。我发现我做数学题做得比谁都快。小学二年级的时候,别人口算题可能还没做完一半,我就已经做完了。不用过脑子,用现在时髦的话说就是 System 1,直接表层意识过,看一眼出来答案那种。

这让我做数学题非常有成就感。我觉得我是一个学习相比于其他人偏慢的人,学一个新的东西经常要花别人两到三倍的时间。现在其实还是这样,比如读一段代码,我要比别人花很多时间去理解整个 context。但我一旦理解之后,我用得就非常快。

有个不太恰当的例子,小时候背课文,我在睡觉之前想尽所有方法,磕磕巴巴地完整背出来,哪怕有很多停顿。睡一觉第二天醒来,发现倒背如流。因为我需要花更多的时间,所以我需要比别人提前学东西。初中的时候我开始上高中数学,直接问初中数学老师各种高中数学的问题,他也非常热情地回答我。初二的时候就已经把高中啃完了,初三就开始学微积分。

主持人: 你天生觉得你做得快,但同时又觉得你学东西慢。

翁家翌: 我感觉我需要更长的时间构建我的知识树。正常来说知识树有个根,往上拓展好几层,每次拿最顶层的结论去应用到题目中,你要从头到尾过一遍。但我可能就直接建立一个 shortcut,直接上去,不用反应了。

主持人: 你从小就意识到自己比别人更聪明吗?

翁家翌: 没有这种感觉。

主持人: 你只是对这事感兴趣。你愿意提前学数学,核心兴趣是哪儿来的?

翁家翌: 我想投资未来。我想投资我自己的未来。

主持人: 你在初二的时候,就意识到提前学高中数学是一种投资未来?

翁家翌: 对于我未来的学习生涯是有帮助的。与其我现在浪费时间在刷题上面,不如学一点对未来有用的东西,后面的收益可能更多。

主持人: 这是你父母给你讲过的吗?

翁家翌: 我父母无所谓,他们不怎么关心我是怎么学的。

主持人: 我很好奇,为什么你初中的时候就有投资未来的想法?你学有余力,为什么不去打篮球、打游戏?

翁家翌: 首先是因为对这个感兴趣。我觉得初等数学太无趣了,稍微有意思一点的数学更能引起我的兴趣。

主持人: 是天生的吗?还是小学的时候因为这事儿有成就感?

翁家翌: 可以这么认为。有一个初始的成就感,初始的 reward,然后慢慢把数学这方面的技能点满。每点一次都会有正反馈,就会一直在这个上面走。像打篮球我试过,但没有什么正反馈,经常被我室友按着打。体育我练过跆拳道,一打实战就被对手揍。反而是这种正反馈,本身也擅长,慢慢就变成了一种自发的内生兴趣了。

主持人: 你高中的时候为什么又对编程产生了兴趣呢?

翁家翌: 我编程是初一开始的。小升初的时候我去的时代中学是个私立校,有一个编程兴趣班,我就抱着玩的心态试了试。

主持人: 初中搞编程对升学没有太多用,这也是你自己找的兴趣班?

翁家翌: 我父母觉得这个可能对我挺有意思的,我就试了试,觉得还可以。

信息学竞赛与高考保送

主持人: 我们聊聊高中。我最感兴趣的是你 OI(信息学竞赛)、省选、NOI 的经历。为什么要搞竞赛呢?

翁家翌: 因为升学压力还是有的。如果不搞竞赛,对于非北京的生源来说,想上清华北大难如登天。

主持人: 所以当时是因为升学压力搞的 OI?

翁家翌: 是的。我高一的时候其实花了一点时间做数学竞赛,拿到了一些还可以的名次。但如果再往上打省选,我们学校没有那个基础,自己学也很困难,我就放弃了。我对省选以上的数学题觉得非常困难,因为我没有那么早去接触。

主持人: 你觉得初中开始学高中数学都不够早?

翁家翌: 初中开始学高中数学竞赛可能够早一点。我没有那么提前,掂量一下还是放弃了,就专心搞 OI 了。

主持人: 能介绍一下靠信息学竞赛升学一般要经过什么步骤吗?

翁家翌: 先 NOIP,差不多是 10 月。然后每个省有不同的选拔标准,选出省队去参加国赛。福建省选有两轮,一轮在寒假,一轮在 4 月份。选完之后,5、6 月有一个清华或者北大夏令营可以二选一,拿一些优惠条件。7 月到 8 月去搞 NOI 的国赛。

主持人: 你在这个过程中是怎么样的?

翁家翌: NOIP 还好,因为从初中开始搞的。高一省选的时候连省队都没进,完全不会做。高二的时候会做一点点,会一些 heuristic 的方法。有一题考最小双圆覆盖,我当时搞出来 70 分,好像是全场最高。做出来这一题后面就进了省队。进了省队之后,清华夏令营拿到一个无条件降 60 分,有条件本一线的优惠。

主持人: 这个怎么理解?

翁家翌: 高考成绩直接加 60 分,如果过了清华当年的录取线,清华就会要你。有条件本一线是说,如果在 NOI 比赛里考到了前 150 名(银牌线),只要高考成绩过了本一线就无条件录取。如果是金牌,直接保送。

主持人: 你当时拿到 NOI 的有条件本一线了吗?

翁家翌: 并没有。这是个黑历史,我是当时福建省队倒数第一。当年福建省内只有一个铜牌,就是我,剩下的人都银牌以上。

主持人: 这次失利对你的升学有影响吗?

翁家翌: 挺多影响的。我高二下半年没有搞文化课,对未来不确定,不知道高考能考多少分。有学长把 60 分加分全部用完的例子,我觉得万一我也这样怎么办,很危险。我对这种不确定性非常害怕。但想了想,我觉得我应该也没有那么差吧,还是咬牙选了降 60 分。

主持人: 另外一个选择是更保险的?

翁家翌: 更保险的选择是直接在 NOI 现场签一个上海交大的本一线录取。当时很难过,对未来不确定感到害怕,但家人鼓励让我选择了清华降 60 分。

主持人: 搞完竞赛之后,到高三你就不碰这些东西了吗?

翁家翌: 也会偷偷碰。我对代码的优化有特别的追求。我当时甚至练成了在 iPad 上直接裸打代码,没有编译器直接交。那一堆经历其实很锻炼思考能力,需要你对整个题目和逻辑有完整的认知,哪里错了能快速定位。

主持人: 对你来说当时其实不需要这种锻炼了。

翁家翌: 是的,只不过自己很感兴趣。比如 OI 里有个叫常数优化,算法时间复杂度都是 N 平方,但前面带了一个常数。评测会按跑测试点的时间排序,跑得最快的排第一;如果跑一样快,按代码长度排序。我会同时 optimize 这两个指标,刷这个东西感觉很有意思。

清华岁月与打破信息差

主持人: 我们聊聊清华。16 年开始读本科,大一大二刚进去有什么值得回忆的事?

翁家翌: 我把我所有的作业都开源了。不同的人对这件事情有不同的看法,有些学长学姐比较反对,但是我觉得我应该做这件事。我把收集到的所有上古作业、上古材料,除了有版权问题的,全部在 GitHub 上开源了。

主持人: 为什么?

翁家翌: 我觉得应该打破信息差。信息差在清华生存是一个很有用的东西,但我觉得每个人都应该平等地拥有这个信息。你现在回去抓个计算机的学弟,问认不认识捐系楼的人,不认识。问认不认识翁家翌,应该认识,因为大家都看我的作业活的。

主持人: 为什么这事和信息差有关系?

翁家翌: 我不想让后人重蹈覆辙,经常疲于奔命。很多人其实很有能力,但不是很擅长搜集东西。如果能给这些人一个信息平权的机会,他在清华会活得更好。不然你会花十几二十个小时钻牛角尖,又不敢问助教,收益很低。我把作业开源,能帮学弟学妹省下时间去做他们更想做的事情。

主持人: 你大一大二什么时候开始入门科研的?

翁家翌: 大二。问学长有没有推荐的实验室,学长说了三个名字:朱军老师、唐杰老师、崔鹏老师。我默认是按牛逼程度排序的,就报了计算机的学术新星计划,全录取了,我就选了朱军老师。当时有三个方向:贝叶斯、GAN(生成对抗网络)、强化学习(RL)。我其实想搞的是 GAN,我觉得图像非常有意思,但我不知道哪个是 GAN,我就选了 RL。误打误撞搞了 RL,发现是个打游戏的东西,觉得挺有意思,就一直搞下去了。

其实我最感兴趣的是图形学。初中看过一部电影叫《创:战纪》(Tron),电影特效非常厉害,我想着如果有一天能做出这种特效,构建一个虚拟世界,我就圆满了。大二上图形学,我花特别多时间做大作业,拿了全班唯二的 A+,发明了一个新算法减少迭代收敛次数,渲染了一张 16K 的图,完全没有噪点。

主持人: 后来继续搞图形学了吗?

翁家翌: 没有。如果要搞科研,还是专心比较好,不能脚踏两条船。

主持人: 第一个 RL 项目是 ViZDoom?

翁家翌: 是的,拿了冠军。但我很不享受这个科研过程。环境太单一了,你要疯狂去 overfit,用各种技巧防止训练崩掉。调参都是玄学,比 CV 调参难度难上十倍一百倍。我意识到 RL 研究全靠 heuristic 和调参,改算法其实没有那么本质。我不是很享受这个过程,我有意识地把重心放到了如何帮助这类科研更顺利进展上。我大四的时候想着造一套 RL 的 infra,让想在这个领域卷的人更方便。我非常擅长软件工程方面的东西,可以重构代码做好用户体验。

暑研挫折与评价体系的挣脱

主持人: 大三面临申请暑研,当时是什么状态?

翁家翌: 发了一堆套磁信没结果,后来导师帮我联系到了 Yoshua Bengio 的 Mila 实验室。19 年暑假过去的。Yoshua 给我的任务是做一个类似于 MoE 的东西,纯 NLP 的 Transformer,跟 RL 没有任何关系。当时还没有 MoE 的概念,我花很长时间入门,搓一个东西出来也没什么好效果。现在回过头看,要 work 首先要有算力、工程能力,还要 scale up。当时一个人就几块卡,哪怕方向是对的也搞不出来。

主持人: 暑研结束回到清华准备申请,压力大吗?

翁家翌: 状态不大好。暑研没搞出来,周围去 BAIR、CMU 暑研的同学都发了 paper。我只拿了一个推荐信,心里挺没底的。我是对着 PhD 申请的,但只拿到了 Master。

主持人: 申请结果对你来说是一种挫败吗?

翁家翌: 有一点,但后来来看也还好。清华内部有一种鄙视链,PhD 要好于 Master。我花了一段时间调整自己,我觉得我一直想做一些让自己与众不同的事情。我尝试挣脱固有的评价体系,GPA 不是唯一的评价标准。我采用了导师推荐的评价体系:论文、比赛、GitHub star 三位数以上。这给了我完全不一样的想法,我可以在开源社区搞事情,对长期发展更好。

主持人: 你是怎么处理 GPA 这个矛盾的?

翁家翌: 我会最低限度地投入,花最低限度的时间让它达到我想要的标准,多一分都不想花。算一下期末考前多少分,够用就行。

天授与 tuixue.online

主持人: 疫情期间你做了两个项目,天授和 tuixue.online。为什么做天授?

翁家翌: 19 年 12 月,我内心有强烈的冲动,想把写过的 RL 实验代码整合一下。20 年 2 月看了 RLlib 的代码,太复杂了,抽象太多,快几十万行代码。我决定推倒重来,自己手撸。

主持人: 有功利的考虑吗?为了发 paper?

翁家翌: 没有,我不想发 paper,我觉得发 paper 完全没有意义。我已经有 paper 了,申请也够用了。我只想有个正儿八经的 GitHub 三位数 star 的项目。

主持人: 做这个事有多难?

翁家翌: 两周就搞出来了。对着 paper 实现一下,抽象搞对的话,一个算法不到 20 行。一个人从头到尾写,代码是一致的(consistent)。天授抓住了用户需求,大家需要好用、好改的 RL 框架。

主持人: 为什么做 tuixue.online?

翁家翌: 我自己有查签证的需求。我找了一圈没发现能满足需求的东西,就手撸了一个爬虫开源了,免费给大家使用。当时总点击量一千多万。做这种慈善项目让我感觉非常满足。

主持人: 你对 Impact 的追求是多久来的?

翁家翌: 高三的时候。突然有一天意识到,如果人生是一场游戏,结算分数是记得你名字的人的数量。这意味着你需要被更多的人认识。我想要的是力所能及地对身边的人好,做一些对大家有意义的事。

工业界选择与加入 OpenAI

主持人: 在 CMU 读研时,找工作是什么过程?

翁家翌: 投了 18 家,收到 OctoML 和幻方(DeepSeek)的 offer。后来又拿了 OpenAI 和 NVIDIA 的 offer。我选择了 OpenAI,因为 OpenAI 和 DeepMind 是当时 RL 搞得最好的两个 lab。我想去体验世界上最前沿的 research 是怎么做的。

主持人: 面试有什么有趣的故事?

翁家翌: John Schulman 面试的我。他出了一道非常 end-to-end 的开放性题目,给三个小时,我花两个小时就做完了。他觉得我 GitHub 非常漂亮,认可我的工程能力。这道题只给两个人测过,一个是我,一个是 Andrej Karpathy,我们俩都通过了。

主持人: 找工作时考虑过读 PhD 吗?

翁家翌: 没有。如果想进工业界,读 PhD 就是浪费生命。你可以以 Master 为跳板,攒够 citation,做出与众不同的项目,跟同时期的 PhD 同台竞技。教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。目前的 research lab 拼的都是 infra 的正确性,单位时间内能迭代多少次。Idea 非常便宜,你要做的是在单位时间内验证多少有效的 idea。

主持人: 你很早就意识到 pipeline 的关键是 infra 和 system?

翁家翌: 是的。我不愿意做调参的事,我更喜欢卖铲子。我把根基打好,让别人去玩。我在 OpenAI 内部搭了整个 post-training 的 RL infra,所以每发一个大模型,我的名字就得放上去。

OpenAI 与 ChatGPT 的诞生

主持人: 什么是大语言模型的 post-training?

翁家翌: 我刚进 OpenAI 的时候还没有 post-training 这个词,当时叫 RL team。

主持人: 刚进 OpenAI 时,ChatGPT 已经是主线了吗?

翁家翌: 不是。当时只是做一个 WebGPT 之后的版本,用 3.5 的模型做 browsing 效果不好,就退而求其次先把用户交互体验做好,用 RLHF 做 instruction following。

主持人: 3.5 这个模型内部已经有了?

翁家翌: 有了,但当时的 PPO pipeline 非常不好用。后来 Greg 写了一个专门的 infra,用 GPT-4 的训练 infra 去支持强化学习。我是先在 GPT-4 上调通了第一版 PPO,然后再在 3.5 上跑的。

主持人: 当时能想象 ChatGPT 有这么大规模的成功吗?

翁家翌: 没有。我第一次用觉得是个会说话的模型,能帮我解决一点代码问题,但有限。发 ChatGPT 只是为了收集真实的用户数据,以为过几天就关了。没想到曲线是指数级的。

主持人: OpenAI 给你什么初印象?

翁家翌: 像一个大号的实验室。后来 Barret、Luke 和 Liam 加入后,引进了谷歌的先进生产力,开始注重 infra,把一周迭代 30 次提升到 300 次。单位时间迭代得越多,成功率就线性往上走。

主持人: OpenAI 怎么做到高效的信息流通?

翁家翌: 组织架构很重要。Sam 和 Greg 对技术非常熟悉,保持技术敏感性。管公司跟管代码库类似,需要 consistency(一致性)。

RL Infra 的挑战与未来

主持人: 大模型需要的 RL infra 和 toy task 的区别在哪?

翁家翌: 区别非常大。Toy task 瓶颈在环境,模型简单;大模型的环境简单(就是一个 prompt),但模型很大,要考虑如何高效采样和训练。

主持人: 未来模型对 RL infra 有什么新挑战?

翁家翌: 性能和 scale up。怎么用更多的 GPU,怎么更高效地吞吐。这牵扯到 RL 和模型的 inference,需要做 end-to-end 的优化。

主持人: 那个时候工作强度有多大?

翁家翌: 早上醒来一直写 debug,一直到晚上睡觉,一周六天。后来进了 ER(急诊),脑子疼受不了。发现不能持久,现在养成习惯每周跑两次 3000 米。

主持人: RL for 大模型还需要大的突破吗?

翁家翌: 还是有的。目前的瓶颈在于还没有完全 scale up,先等它慢慢把现有的方法和 compute 榨干。最大的瓶颈在于修 infra 的 bug,单位时间内能正确迭代多少次。如果把 bug 全修了,算法可能连改都不用改。

主持人: Agent 和 RL post-training 会有本质差别吗?

翁家翌: 没有本质差别,本身就是同一个东西,只是环境变多了。

AGI、开源与宿命论

主持人: 你对 AGI 的定义是什么?

翁家翌: 如果能完成 80-90% 我认为有意义的 task,那就是 AGI。目前还没有,我还不放心它直接上手改我的 infra 代码。

主持人: OpenAI 闭源是离 AGI 更近了还是更远了?

翁家翌: 这是一个 trade-off。公司要生存,如果不能生存就无法继续融资做实验。造福全人类目前的拆解是做产品,以尽可能便宜的价格让普通人接触到技术,而不是直接开源模型权重。

主持人: Sam Altman 被开除事件,内部视角是什么?

翁家翌: Ilya 跟其他董事会成员不信任 Sam。但底下干活的人觉得非常震惊。AGI 的实现不只是技术,还需要商业因素,比如融资、算力。长远来看还是需要 Sam 这样的人。

主持人: 外部激烈的竞争(如 DeepSeek)会传导到内部吗?

翁家翌: DeepSeek 引起了警觉,因为他们声称迭代速度非常快。我们真正在意的是单位时间内的迭代速度和成功率。公司做大了都会面临组织架构臃肿、迭代变慢的问题。

主持人: 如果希望 AI 解决一个世界难题,会是什么?

翁家翌: 预测未来。我相信决定论(宿命论),世界是一个确定的马尔可夫过程。所有东西都是可以被预测的。但如果真有这样的机器,对个人而言是灾难,会导致价值体系崩塌。最好的方式就是忘掉这一切,假装不知道,去体验当前的经历。

主持人: 10 年后的翁家翌会在做什么?

翁家翌: 希望他做自己那个时候想做的事,有足够的资源和能力。我现在能做的就是投资未来,提前退休,有足够的资本去找自己真正想做的事。我现在其实处于人生的迷茫期,曾经想通了想要什么,现在又想不通了。这个问题值得一生去思考。

On this page