Latent Space: The AI Engineer Podcast

【OpenAI 后训练现状】从 GPT-4.1 到 5.1:RLVR、智能体与 Token 效率革命 —— 对话 Josh McGrath

2025/12/311653
深入黑盒

转向 思考

Josh McGrath 谈从预训练效率到后训练行为这一高杠杆领域的转型。

叙述背景

我是 Josh McGrath,OpenAI 的一名后训练研究员。最近,我的世界完全被思考模型和搜索相关的架构占据了。再次回到这里感觉有点超现实——上次我们坐下来聊的时候,我们还在深入研究 GPT-4.1 的内部构造。从那时起,感觉我们已经经历了一整个时代的 AI 进化。

回到 4.1 时代,我们主要关注的是我称之为“非思考”的模型——特别是侧重 API 性能的模型。但现在的重点已经发生了根本性的转变。当然,我们仍然在发布那些经典模型,但研究的重心已经转向了更复杂、更深思熟虑的东西。

“我是想追求 3% 的计算效率提升,还是想让行为改变 40%?”

人们经常问我是如何进入后训练领域的。在加入 OpenAI 之前,我的重点是预训练数据策展。但我开始阅读论文并关注新闻动态,我感觉到风向变了。预训练并不是‘已死’,但它正在成熟为一场边际收益的游戏。对我来说,兴奋点不在于挤出那一点点计算效率,而是在于行为的前沿探索。

[ 题外话:4.1 的遗产 ] 主持人提到了 Michelle,她曾参与了最初的 GPT-4.1 讨论,但目前正在休产假。Josh 笑着指出,在一个生命孕育并诞生的时间里,OpenAI 基本上已经从 4.1 跨越到了 5.1。这生动地提醒了我们所谓的‘OpenAI 时间膨胀’——在这里,一年感觉就像过了十年。

后训练是模型真正学习如何“做自己”的过程。预训练权重的原始智能在这里被转化为有用的、对话式的或具备推理能力的东西。这意味着要熬很多个深夜,但当你看到因为调整了后训练数据结构而使能力提升了 40% 时,那些熬夜就值了。

归档第 02 章

意图的基础设施

为什么后训练 RL 比预训练更难

先前涵盖的内容:模型人格与 Anton vs Clippy 的分歧 -> 超越 PPO vs DPO:RL 中的数据质量谱系

这完全是另一种数据和工程学科。尤其是当你扩展 RL 时——运行中的变量和环节明显更多。在预训练中,你将 token 传输到机器,获得一个标量,然后进行反向传播。它是线性的。而 RL 关乎的是任务

每个任务可能有不同的评分设置,而这些设置本身又是更多的基础设施。当我熬夜想搞清楚某次运行出了什么问题时,可能是预训练环境中根本不存在的各种问题。你最后不得不扎进代码里,然后意识到,“我其实根本不知道这段代码是干什么的。”你就像在照看一个系统,而你必须以极快的速度掌握上下文。

交互范式

我们刚好在黑色星期五前后发布了购物模型——即“Judge Judy”模型。有意思的不在于它能找到商品,而在于它的可中断性.

它在浏览时会向你展示思考链,你可以直接按 Esc 键说:“其实,我想要这个带 USB-C 接口的。” 这是一个专门为购物设计的深度研究型模型。人们会问为什么它不直接作为主模型里的一个工具。最终这些能力会融合,但当我们推进高推理能力的前沿时,让一个模型作为独立实体在互联网上“努力搜寻”是有意义的。

“Codecs 在 15 分钟内完成的工作比我几个小时能做的还要多。但是……在那之后的 15 分钟里我该做什么?”
[ 题外话:15 分钟的缺口 ] 我的一天节奏改变了。我会花 40 分钟写一份设计文档或提示词,然后 Codex 会在 15 分钟内完成几个小时的工作。这制造出了一些奇怪的时间真空,我必须弄清楚在机器全速运转时,我该如何保持高效。

哲学 A

“Anton”理想

HBO《硅谷》里的机器。它就是一个工具。它不会尝试变得乐于助人、友好或兴高采烈。它干活,然后闭嘴。开发者往往更倾向于 Anton。不露笑脸,只管解决问题。

哲学 B

“Clippy(大眼夹)”范儿

温暖、欢快的小助手。当你在经历技术危机时,它对着你微笑。虽然有些人觉得这很烦人,但它代表了很大一部分用户真正会产生共鸣的“人格”层。

信号质量的光谱

一种转变正在发生。我们正从以优化为中心的争论(PPO vs. DPO)转向 以数据为中心 的争论。归根结底,RLHF 和 RLVR 都是策略梯度方法。真正的区别在于输入数据以及你对信号的信任程度。

RLHF 经常被称为“不可验证”,因为它基于人类偏好——这接近真相,但不是 真理。将其与解多项式或数学题进行比较。当你找到数学题的答案时(如 DeepSeek Math 论文中使用 GRPO 的情况),奖励信号是绝对的。我们还没有花足够的时间去观察这个维度:信号有多干净,我有多信任它?

至关重要的二维图表

注意:从 5.0 到 5.1,评估指标(Evals)提升了,但达到这些指标所需的 token 数量却骤降。效率是新的前沿。

下一节:长上下文与图块(Graph Blocks):迈向完美的上下文
跳转至招聘策略 →
深度探讨:架构前沿

迈向完美的上下文

从“上下文腐烂”到万亿 Token 的地平线

桥梁

此前,我们剖析了“Codex Max”现象——即 token 效率和流程问题如何制造瓶颈,导致开发者花 40 分钟规划,却要等 15 分钟让模型跟上。但即使我们解决了速度问题,我们仍面临一个更深层的架构之墙:上下文窗口本身的利用率。

人们经常谈论“上下文腐化” (context rot)。大家担心的是,即便我们给你一个百万级的 token 窗口,模型也无法真正地 利用 它。但“完美的上下文”在明年会是一个遥不可及的梦想吗?我不这么认为。事实上,我们一直在通过为 4.1 开发的特定评估方法来追踪这一点,这种方法叫做 Graphwalks.

“如果你只需要从上下文窗口中的某一个点进行采样,那很简单。真正的考验是当你必须在整个窗口内执行多次转换时。”

这就是那些标准“大海捞针” (needle-in-a-haystack) 热力图所缺失的细微差别。如果模型只需要找到一个事实,那是微不足道的。Graphwalks 迫使模型遍历整个上下文中的链接。这些评分一直在攀升,而且还会继续攀升。这只是我们正在跨越的一个暂时性障碍。

工程师的怀疑

“在全注意力机制下,这永远无法实现扩展。无论如何我们都需要投入系统建设。既然我们应该研究如何通过系统实现 100 万倍的提升,我们真的需要 100 倍的上下文吗?”

研究员的雄心

“我很高兴你对目前的窗口大小感到满意,但我的梦想是挑战极限,看看会发生什么。研究员想把智能留在模型里;工程师则想把它留在系统里。”

在 OpenAI,训练后 (post-training) 的魅力在于“协同设计” (co-design) 文化。我花时间在系统架构上,但我也在构建 Graphwalks 并研究学习侧。我们在两者之间无缝切换。

机器学习系统混合型人才:这种“独角兽”级别的招聘目标

经常有人问我,现在哪种技能组合最难找。不只是“机器学习研究员”或“软件工程师”——而是那些既想从事 系统工作 又想从事 机器学习工作 的人。

如果你正在挑战前沿领域,你根本不知道下一个瓶颈会在哪里。中午可能还是个统计学难题,下午两点就变成了分布式系统工程的噩梦。我们当前的教育体系还没针对这种情况进行优化,各学科被分而治之。我以前学数学,在工程方面也有很棒的导师,但我们需要的是那些不仅仅把机器学习当成一个拿来即用的“黑盒”的学生。

招聘重心

前沿通才

  • 分布式系统工程
  • 核心工程与优化
  • 统计机器学习
  • 环境训练架构
“训练环境本身就是复杂的工程难题。其难度与机器学习研究本身旗鼓相当。”
后训练文化
“享受深夜的健怡可乐” 购物团队:Andrew Hoyal、Manuka Strata、John Hallman 深度研究:Issa Fulford

下篇:预训练尚未过时:在技术革命的迷雾中生存 →

第三章

预训练尚未过时

在技术革命的迷雾中生存

在讨论了机器学习系统混合型人才——以及寻找能在底层优化和高层建模之间游刃有余的工程师是多么困难之后——我们遇到了一个新的摩擦点。现在我的研究员朋友们都在传一个“辛辣”的观点:也许 太多 资金正涌入后训练领域。

今年我一直在思考的一个思维模型是围绕 Grok 4 的发展轨迹展开的。传统观念让我们认为,训练后阶段所需的数据和算力要比初始预训练阶段少好几个数量级。但现在的图表显示了完全不同的情况。我们看到训练后阶段的算力规模已经达到了以往初始预训练“大爆炸”时期的水平。

“我们会达到预训练和训练后算力持平的地步吗?我不知道。但投资重心的转向是巨大的。”

这种体验很奇妙。我们正身处一场实时的历史性技术革命之中。通常,你是在历史书中读到这些变革,那时候结论已经写好了。而在这里,我们不知道结局。我们正处于“战争迷雾”之中。

[ 景观之路:论人体工程学与电力 ]

想想从蒸汽到电力的过渡。在蒸汽时代,工厂严格按照线性布局。你有一个巨大的马达驱动横跨整个房间的传动轴,所有东西都必须排成一线。当电力最初出现时,人们并没有改变布局。他们只是用一个电动机取代了一个蒸汽马达,并保留了线性工位。

我们花了 几十年时间 才意识到,电力意味着我们可以随处放置小马达。我们可以根据人体工程学而不是机械必然性来重新布置工厂。那是制造业真正发生变革的时候。我认为在 AI 领域我们也处于同样的等待期——我们有了“马达”,但还没弄清楚“工厂”的新形态。

这种历史滞后性就是为什么当人们声称某种方法论已“死”时,我并不认同。我们的时间表被极度压缩,但优秀想法获得资金支持和传播的方式仍然遵循人类的时间表,而不是 AI 的时间表。

[ 演讲者 0 ]

“我们需要更多的理性。我们的时间表很紧迫,但人类的实验依然是瓶颈。”

[ 演讲者 1 ]

“这种‘凉了’和‘行了’的反复会发生很多次。保持稳定。持续提供反馈。我喜欢听取大家的想法。”

关联单集