翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华

深度对话 OpenAI 核心研究员翁家翌，分享其在 GPT 系列模型研发中的贡献、求学成长经历及对开源精神的理解。

UP主: WhynotTV · 时长: 2h02m · 🔗 B站原视频

发布: 2026-01-17 · 收录: 2026-01-18

标签: OpenAI · 人工智能 · 人物访谈 · 强化学习 · 职场成长

核心贡献与打破信息差

主持人： 很多模型 release 都有你的名字。

翁家翌： 因为我在 OpenAI 内部搭了整个 post-training 的 RL infra。

主持人： 所以整个 post-training 的 RL infra，你是最核心的贡献者了。

翁家翌： 是的。我觉得应该打破信息差。如果你在清华生存的话，信息差是一个很有用的东西，但是我觉得每个人都应该平等地拥有这个信息。哪怕当时有了现代的认知，还是做不出来。我不想发 paper，我觉得发 paper 完全没有意义。幻方当时说要搞一个 AI lab，就是后面的 DeepSeek，我当时是拿了 offer 的。如果你想进工业界，那么读 PhD 就是浪费生命。教一个 researcher 如何做好 engineering，要远比教一个 engineer 如何做好 research 来得难。每家的 infra 都有不同程度的 bug，谁修的 bug 越多，谁的模型训得就越好。

主持人： 大家好，本期嘉宾翁家翌。他于 2022 年加入 OpenAI，并且是 OpenAI 1 系列模型背后的核心贡献者。从 ChatGPT、GPT-4o 再到 GPT-5，你能看到的每一个模型跃迁背后都有他的身影。他的核心贡献可以被总结为三个关键词：强化学习、Post-training、Infra。但对我来说，翁家翌不只是把模型做得更强的人。在加入 OpenAI 之前，他就已经用开源和代码影响过无数人。从在清华开源作业与资料试图打破信息差，到开源强化学习框架天授（Tianshou），做出免费签证查询系统（tuixue.online），他把代码工具视作一种慈善。在这期播客，我们会从翁家翌的童年聊起，到清华与 CMU 的求学之路，再到 2022 年加入 OpenAI 之后的亲身经历。站在世界 AI 风暴中心，他看见了什么？这里是 WhynotTV Podcast，现在请和我一起进入翁家翌的世界。

主持人： Hello 家翌，欢迎你来到 WhynotTV Podcast。我觉得这期很奇妙的一点是，我在给你准备这期的 outline 的时候，我用的是 GPT-5 的 deep research。相当于你自己作为核心开发者的产品和模型，它们自己在做 deep research 想这些问题来采访你，这是一个比较奇妙的闭环。今天我们会谈到很多部分，从你的童年成长、清华的本科经历到 CMU 读研，再到 2022 年加入 OpenAI 至今的核心开发经历。我想先从最早你的童年开始，能不能给我讲讲你小时候是一个什么样的小孩？

童年成长与数学启蒙

翁家翌： 我小时候特别喜欢奥数。我从一年级开始就学奥数，因为我爸妈让我去听了进修校的奥数课跟语文课。我对语文完全不感兴趣，但我对奥数非常感兴趣，从一年级一直上到六年级，初中也是。我发现我做数学题做得比谁都快。小学二年级的时候，别人口算题可能还没做完一半，我就已经做完了。不用过脑子，用现在时髦的话说就是 System 1，直接表层意识过，看一眼出来答案那种。

这让我做数学题非常有成就感。我觉得我是一个学习相比于其他人偏慢的人，学一个新的东西经常要花别人两到三倍的时间。现在其实还是这样，比如读一段代码，我要比别人花很多时间去理解整个 context。但我一旦理解之后，我用得就非常快。

有个不太恰当的例子，小时候背课文，我在睡觉之前想尽所有方法，磕磕巴巴地完整背出来，哪怕有很多停顿。睡一觉第二天醒来，发现倒背如流。因为我需要花更多的时间，所以我需要比别人提前学东西。初中的时候我开始上高中数学，直接问初中数学老师各种高中数学的问题，他也非常热情地回答我。初二的时候就已经把高中啃完了，初三就开始学微积分。

主持人： 你天生觉得你做得快，但同时又觉得你学东西慢。

翁家翌： 我感觉我需要更长的时间构建我的知识树。正常来说知识树有个根，往上拓展好几层，每次拿最顶层的结论去应用到题目中，你要从头到尾过一遍。但我可能就直接建立一个 shortcut，直接上去，不用反应了。

主持人： 你从小就意识到自己比别人更聪明吗？

翁家翌： 没有这种感觉。

主持人： 你只是对这事感兴趣。你愿意提前学数学，核心兴趣是哪儿来的？

翁家翌： 我想投资未来。我想投资我自己的未来。

主持人： 你在初二的时候，就意识到提前学高中数学是一种投资未来？

翁家翌： 对于我未来的学习生涯是有帮助的。与其我现在浪费时间在刷题上面，不如学一点对未来有用的东西，后面的收益可能更多。

主持人： 这是你父母给你讲过的吗？

翁家翌： 我父母无所谓，他们不怎么关心我是怎么学的。

主持人： 我很好奇，为什么你初中的时候就有投资未来的想法？你学有余力，为什么不去打篮球、打游戏？

翁家翌： 首先是因为对这个感兴趣。我觉得初等数学太无趣了，稍微有意思一点的数学更能引起我的兴趣。

主持人： 是天生的吗？还是小学的时候因为这事儿有成就感？

翁家翌： 可以这么认为。有一个初始的成就感，初始的 reward，然后慢慢把数学这方面的技能点满。每点一次都会有正反馈，就会一直在这个上面走。像打篮球我试过，但没有什么正反馈，经常被我室友按着打。体育我练过跆拳道，一打实战就被对手揍。反而是这种正反馈，本身也擅长，慢慢就变成了一种自发的内生兴趣了。

主持人： 你高中的时候为什么又对编程产生了兴趣呢？

翁家翌： 我编程是初一开始的。小升初的时候我去的时代中学是个私立校，有一个编程兴趣班，我就抱着玩的心态试了试。

主持人： 初中搞编程对升学没有太多用，这也是你自己找的兴趣班？

翁家翌： 我父母觉得这个可能对我挺有意思的，我就试了试，觉得还可以。

信息学竞赛与高考保送

主持人： 我们聊聊高中。我最感兴趣的是你 OI（信息学竞赛）、省选、NOI 的经历。为什么要搞竞赛呢？

翁家翌： 因为升学压力还是有的。如果不搞竞赛，对于非北京的生源来说，想上清华北大难如登天。

主持人： 所以当时是因为升学压力搞的 OI？

翁家翌： 是的。我高一的时候其实花了一点时间做数学竞赛，拿到了一些还可以的名次。但如果再往上打省选，我们学校没有那个基础，自己学也很困难，我就放弃了。我对省选以上的数学题觉得非常困难，因为我没有那么早去接触。

主持人： 你觉得初中开始学高中数学都不够早？

翁家翌： 初中开始学高中数学竞赛可能够早一点。我没有那么提前，掂量一下还是放弃了，就专心搞 OI 了。

主持人： 能介绍一下靠信息学竞赛升学一般要经过什么步骤吗？

翁家翌： 先 NOIP，差不多是 10 月。然后每个省有不同的选拔标准，选出省队去参加国赛。福建省选有两轮，一轮在寒假，一轮在 4 月份。选完之后，5、6 月有一个清华或者北大夏令营可以二选一，拿一些优惠条件。7 月到 8 月去搞 NOI 的国赛。

主持人： 你在这个过程中是怎么样的？

翁家翌： NOIP 还好，因为从初中开始搞的。高一省选的时候连省队都没进，完全不会做。高二的时候会做一点点，会一些 heuristic 的方法。有一题考最小双圆覆盖，我当时搞出来 70 分，好像是全场最高。做出来这一题后面就进了省队。进了省队之后，清华夏令营拿到一个无条件降 60 分，有条件本一线的优惠。

主持人： 这个怎么理解？

翁家翌： 高考成绩直接加 60 分，如果过了清华当年的录取线，清华就会要你。有条件本一线是说，如果在 NOI 比赛里考到了前 150 名（银牌线），只要高考成绩过了本一线就无条件录取。如果是金牌，直接保送。

主持人： 你当时拿到 NOI 的有条件本一线了吗？

翁家翌： 并没有。这是个黑历史，我是当时福建省队倒数第一。当年福建省内只有一个铜牌，就是我，剩下的人都银牌以上。

主持人： 这次失利对你的升学有影响吗？

翁家翌： 挺多影响的。我高二下半年没有搞文化课，对未来不确定，不知道高考能考多少分。有学长把 60 分加分全部用完的例子，我觉得万一我也这样怎么办，很危险。我对这种不确定性非常害怕。但想了想，我觉得我应该也没有那么差吧，还是咬牙选了降 60 分。

主持人： 另外一个选择是更保险的？

翁家翌： 更保险的选择是直接在 NOI 现场签一个上海交大的本一线录取。当时很难过，对未来不确定感到害怕，但家人鼓励让我选择了清华降 60 分。

主持人： 搞完竞赛之后，到高三你就不碰这些东西了吗？

翁家翌： 也会偷偷碰。我对代码的优化有特别的追求。我当时甚至练成了在 iPad 上直接裸打代码，没有编译器直接交。那一堆经历其实很锻炼思考能力，需要你对整个题目和逻辑有完整的认知，哪里错了能快速定位。

主持人： 对你来说当时其实不需要这种锻炼了。

翁家翌： 是的，只不过自己很感兴趣。比如 OI 里有个叫常数优化，算法时间复杂度都是 N 平方，但前面带了一个常数。评测会按跑测试点的时间排序，跑得最快的排第一；如果跑一样快，按代码长度排序。我会同时 optimize 这两个指标，刷这个东西感觉很有意思。

清华岁月与打破信息差

主持人： 我们聊聊清华。16 年开始读本科，大一大二刚进去有什么值得回忆的事？

翁家翌： 我把我所有的作业都开源了。不同的人对这件事情有不同的看法，有些学长学姐比较反对，但是我觉得我应该做这件事。我把收集到的所有上古作业、上古材料，除了有版权问题的，全部在 GitHub 上开源了。

主持人： 为什么？

翁家翌： 我觉得应该打破信息差。信息差在清华生存是一个很有用的东西，但我觉得每个人都应该平等地拥有这个信息。你现在回去抓个计算机的学弟，问认不认识捐系楼的人，不认识。问认不认识翁家翌，应该认识，因为大家都看我的作业活的。

主持人： 为什么这事和信息差有关系？

翁家翌： 我不想让后人重蹈覆辙，经常疲于奔命。很多人其实很有能力，但不是很擅长搜集东西。如果能给这些人一个信息平权的机会，他在清华会活得更好。不然你会花十几二十个小时钻牛角尖，又不敢问助教，收益很低。我把作业开源，能帮学弟学妹省下时间去做他们更想做的事情。

主持人： 你大一大二什么时候开始入门科研的？

翁家翌： 大二。问学长有没有推荐的实验室，学长说了三个名字：朱军老师、唐杰老师、崔鹏老师。我默认是按牛逼程度排序的，就报了计算机的学术新星计划，全录取了，我就选了朱军老师。当时有三个方向：贝叶斯、GAN（生成对抗网络）、强化学习（RL）。我其实想搞的是 GAN，我觉得图像非常有意思，但我不知道哪个是 GAN，我就选了 RL。误打误撞搞了 RL，发现是个打游戏的东西，觉得挺有意思，就一直搞下去了。

其实我最感兴趣的是图形学。初中看过一部电影叫《创：战纪》（Tron），电影特效非常厉害，我想着如果有一天能做出这种特效，构建一个虚拟世界，我就圆满了。大二上图形学，我花特别多时间做大作业，拿了全班唯二的 A+，发明了一个新算法减少迭代收敛次数，渲染了一张 16K 的图，完全没有噪点。

主持人： 后来继续搞图形学了吗？

翁家翌： 没有。如果要搞科研，还是专心比较好，不能脚踏两条船。

主持人： 第一个 RL 项目是 ViZDoom？

翁家翌： 是的，拿了冠军。但我很不享受这个科研过程。环境太单一了，你要疯狂去 overfit，用各种技巧防止训练崩掉。调参都是玄学，比 CV 调参难度难上十倍一百倍。我意识到 RL 研究全靠 heuristic 和调参，改算法其实没有那么本质。我不是很享受这个过程，我有意识地把重心放到了如何帮助这类科研更顺利进展上。我大四的时候想着造一套 RL 的 infra，让想在这个领域卷的人更方便。我非常擅长软件工程方面的东西，可以重构代码做好用户体验。

暑研挫折与评价体系的挣脱

主持人： 大三面临申请暑研，当时是什么状态？

翁家翌： 发了一堆套磁信没结果，后来导师帮我联系到了 Yoshua Bengio 的 Mila 实验室。19 年暑假过去的。Yoshua 给我的任务是做一个类似于 MoE 的东西，纯 NLP 的 Transformer，跟 RL 没有任何关系。当时还没有 MoE 的概念，我花很长时间入门，搓一个东西出来也没什么好效果。现在回过头看，要 work 首先要有算力、工程能力，还要 scale up。当时一个人就几块卡，哪怕方向是对的也搞不出来。

主持人： 暑研结束回到清华准备申请，压力大吗？

翁家翌： 状态不大好。暑研没搞出来，周围去 BAIR、CMU 暑研的同学都发了 paper。我只拿了一个推荐信，心里挺没底的。我是对着 PhD 申请的，但只拿到了 Master。

主持人： 申请结果对你来说是一种挫败吗？

翁家翌： 有一点，但后来来看也还好。清华内部有一种鄙视链，PhD 要好于 Master。我花了一段时间调整自己，我觉得我一直想做一些让自己与众不同的事情。我尝试挣脱固有的评价体系，GPA 不是唯一的评价标准。我采用了导师推荐的评价体系：论文、比赛、GitHub star 三位数以上。这给了我完全不一样的想法，我可以在开源社区搞事情，对长期发展更好。

主持人： 你是怎么处理 GPA 这个矛盾的？

翁家翌： 我会最低限度地投入，花最低限度的时间让它达到我想要的标准，多一分都不想花。算一下期末考前多少分，够用就行。

天授与 tuixue.online

主持人： 疫情期间你做了两个项目，天授和 tuixue.online。为什么做天授？

翁家翌： 19 年 12 月，我内心有强烈的冲动，想把写过的 RL 实验代码整合一下。20 年 2 月看了 RLlib 的代码，太复杂了，抽象太多，快几十万行代码。我决定推倒重来，自己手撸。

主持人： 有功利的考虑吗？为了发 paper？

翁家翌： 没有，我不想发 paper，我觉得发 paper 完全没有意义。我已经有 paper 了，申请也够用了。我只想有个正儿八经的 GitHub 三位数 star 的项目。

主持人： 做这个事有多难？

翁家翌： 两周就搞出来了。对着 paper 实现一下，抽象搞对的话，一个算法不到 20 行。一个人从头到尾写，代码是一致的（consistent）。天授抓住了用户需求，大家需要好用、好改的 RL 框架。

主持人： 为什么做 tuixue.online？

翁家翌： 我自己有查签证的需求。我找了一圈没发现能满足需求的东西，就手撸了一个爬虫开源了，免费给大家使用。当时总点击量一千多万。做这种慈善项目让我感觉非常满足。

主持人： 你对 Impact 的追求是多久来的？

翁家翌： 高三的时候。突然有一天意识到，如果人生是一场游戏，结算分数是记得你名字的人的数量。这意味着你需要被更多的人认识。我想要的是力所能及地对身边的人好，做一些对大家有意义的事。

工业界选择与加入 OpenAI

主持人： 在 CMU 读研时，找工作是什么过程？

翁家翌： 投了 18 家，收到 OctoML 和幻方（DeepSeek）的 offer。后来又拿了 OpenAI 和 NVIDIA 的 offer。我选择了 OpenAI，因为 OpenAI 和 DeepMind 是当时 RL 搞得最好的两个 lab。我想去体验世界上最前沿的 research 是怎么做的。

主持人： 面试有什么有趣的故事？

翁家翌： John Schulman 面试的我。他出了一道非常 end-to-end 的开放性题目，给三个小时，我花两个小时就做完了。他觉得我 GitHub 非常漂亮，认可我的工程能力。这道题只给两个人测过，一个是我，一个是 Andrej Karpathy，我们俩都通过了。

主持人： 找工作时考虑过读 PhD 吗？

翁家翌： 没有。如果想进工业界，读 PhD 就是浪费生命。你可以以 Master 为跳板，攒够 citation，做出与众不同的项目，跟同时期的 PhD 同台竞技。教一个 researcher 如何做好 engineering，要远比教一个 engineer 如何做好 research 来得难。目前的 research lab 拼的都是 infra 的正确性，单位时间内能迭代多少次。Idea 非常便宜，你要做的是在单位时间内验证多少有效的 idea。

主持人： 你很早就意识到 pipeline 的关键是 infra 和 system？

翁家翌： 是的。我不愿意做调参的事，我更喜欢卖铲子。我把根基打好，让别人去玩。我在 OpenAI 内部搭了整个 post-training 的 RL infra，所以每发一个大模型，我的名字就得放上去。

OpenAI 与 ChatGPT 的诞生

主持人： 什么是大语言模型的 post-training？

翁家翌： 我刚进 OpenAI 的时候还没有 post-training 这个词，当时叫 RL team。

主持人： 刚进 OpenAI 时，ChatGPT 已经是主线了吗？

翁家翌： 不是。当时只是做一个 WebGPT 之后的版本，用 3.5 的模型做 browsing 效果不好，就退而求其次先把用户交互体验做好，用 RLHF 做 instruction following。

主持人： 3.5 这个模型内部已经有了？

翁家翌： 有了，但当时的 PPO pipeline 非常不好用。后来 Greg 写了一个专门的 infra，用 GPT-4 的训练 infra 去支持强化学习。我是先在 GPT-4 上调通了第一版 PPO，然后再在 3.5 上跑的。

主持人： 当时能想象 ChatGPT 有这么大规模的成功吗？

翁家翌： 没有。我第一次用觉得是个会说话的模型，能帮我解决一点代码问题，但有限。发 ChatGPT 只是为了收集真实的用户数据，以为过几天就关了。没想到曲线是指数级的。

主持人： OpenAI 给你什么初印象？

翁家翌： 像一个大号的实验室。后来 Barret、Luke 和 Liam 加入后，引进了谷歌的先进生产力，开始注重 infra，把一周迭代 30 次提升到 300 次。单位时间迭代得越多，成功率就线性往上走。

主持人： OpenAI 怎么做到高效的信息流通？

翁家翌： 组织架构很重要。Sam 和 Greg 对技术非常熟悉，保持技术敏感性。管公司跟管代码库类似，需要 consistency（一致性）。

RL Infra 的挑战与未来

主持人： 大模型需要的 RL infra 和 toy task 的区别在哪？

翁家翌： 区别非常大。Toy task 瓶颈在环境，模型简单；大模型的环境简单（就是一个 prompt），但模型很大，要考虑如何高效采样和训练。

主持人： 未来模型对 RL infra 有什么新挑战？

翁家翌： 性能和 scale up。怎么用更多的 GPU，怎么更高效地吞吐。这牵扯到 RL 和模型的 inference，需要做 end-to-end 的优化。

主持人： 那个时候工作强度有多大？

翁家翌： 早上醒来一直写 debug，一直到晚上睡觉，一周六天。后来进了 ER（急诊），脑子疼受不了。发现不能持久，现在养成习惯每周跑两次 3000 米。

主持人： RL for 大模型还需要大的突破吗？

翁家翌： 还是有的。目前的瓶颈在于还没有完全 scale up，先等它慢慢把现有的方法和 compute 榨干。最大的瓶颈在于修 infra 的 bug，单位时间内能正确迭代多少次。如果把 bug 全修了，算法可能连改都不用改。

主持人： Agent 和 RL post-training 会有本质差别吗？

翁家翌： 没有本质差别，本身就是同一个东西，只是环境变多了。

AGI、开源与宿命论

主持人： 你对 AGI 的定义是什么？

翁家翌： 如果能完成 80-90% 我认为有意义的 task，那就是 AGI。目前还没有，我还不放心它直接上手改我的 infra 代码。

主持人： OpenAI 闭源是离 AGI 更近了还是更远了？

翁家翌： 这是一个 trade-off。公司要生存，如果不能生存就无法继续融资做实验。造福全人类目前的拆解是做产品，以尽可能便宜的价格让普通人接触到技术，而不是直接开源模型权重。

主持人： Sam Altman 被开除事件，内部视角是什么？

翁家翌： Ilya 跟其他董事会成员不信任 Sam。但底下干活的人觉得非常震惊。AGI 的实现不只是技术，还需要商业因素，比如融资、算力。长远来看还是需要 Sam 这样的人。

主持人： 外部激烈的竞争（如 DeepSeek）会传导到内部吗？

翁家翌： DeepSeek 引起了警觉，因为他们声称迭代速度非常快。我们真正在意的是单位时间内的迭代速度和成功率。公司做大了都会面临组织架构臃肿、迭代变慢的问题。

主持人： 如果希望 AI 解决一个世界难题，会是什么？

翁家翌： 预测未来。我相信决定论（宿命论），世界是一个确定的马尔可夫过程。所有东西都是可以被预测的。但如果真有这样的机器，对个人而言是灾难，会导致价值体系崩塌。最好的方式就是忘掉这一切，假装不知道，去体验当前的经历。

主持人： 10 年后的翁家翌会在做什么？

翁家翌： 希望他做自己那个时候想做的事，有足够的资源和能力。我现在能做的就是投资未来，提前退休，有足够的资本去找自己真正想做的事。我现在其实处于人生的迷茫期，曾经想通了想要什么，现在又想不通了。这个问题值得一生去思考。

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4