Latent Space: The AI Engineer Podcast

【OpenAI 后训练现状】从 GPT-4.1 到 5.1：RLVR、智能体与 Token 效率革命 —— 对话 Josh McGrath

2025/12/311653

Editorial Note

从 GPT-4o 到 o1、o3，再到 GPT-5 的“思考”模式及购物模型，OpenAI 研究员 Josh McGrath 亲历了后训练（Post-training）技术的完整演进。在 NeurIPS 2025 的这场深度对话中，我们揭秘了通往 2026 年的技术路线：为什么 RLHF 正在向 RLVR（基于可验证奖励的强化学习）进化？DeepSeek 的 GRPO 算法为何被低估？为什么说 Token 效率（从 GPT-5 到 5.1 的跨越）比运行时间更重要？此外，Josh 还探讨了后训练基础设施中比预训练更复杂的“工程混沌”、Codex 智能体如何重塑开发工作流、以及为什么当前 AI 实验室最大的瓶颈是缺乏兼通“分布式系统”与“机器学习”的复合型人才。从模型个性（Anton vs Clippy）到 1000 万超长上下文与图搜索的博弈，本文将带你透视 OpenAI 顶尖研究员眼中的 AI 范式转移。

Voices

Keywords

Chapter 01Read Full

Insight

Chapter 01

Insight

深入黑盒

转向思考

Josh McGrath 谈从预训练效率到后训练行为这一高杠杆领域的转型。

叙述背景

我是 Josh McGrath，OpenAI 的一名后训练研究员。最近，我的世界完全被思考模型和搜索相关的架构占据了。再次回到这里感觉有点超现实——上次我们坐下来聊的时候，我们还在深入研究 GPT-4.1 的内部构造。从那时起，感觉我们已经经历了一整个时代的 AI 进化。

回到 4.1 时代，我们主要关注的是我称之为“非思考”的模型——特别是侧重 API 性能的模型。但现在的重点已经发生了根本性的转变。当然，我们仍然在发布那些经典模型，但研究的重心已经转向了更复杂、更深思熟虑的东西。

“我是想追求 3% 的计算效率提升，还是想让行为改变 40%？”

人们经常问我是如何进入后训练领域的。在加入 OpenAI 之前，我的重点是预训练数据策展。但我开始阅读论文并关注新闻动态，我感觉到风向变了。预训练并不是‘已死’，但它正在成熟为一场边际收益的游戏。对我来说，兴奋点不在于挤出那一点点计算效率，而是在于行为的前沿探索。

[ 题外话：4.1 的遗产 ] 主持人提到了 Michelle，她曾参与了最初的 GPT-4.1 讨论，但目前正在休产假。Josh 笑着指出，在一个生命孕育并诞生的时间里，OpenAI 基本上已经从 4.1 跨越到了 5.1。这生动地提醒了我们所谓的‘OpenAI 时间膨胀’——在这里，一年感觉就像过了十年。

后训练是模型真正学习如何“做自己”的过程。预训练权重的原始智能在这里被转化为有用的、对话式的或具备推理能力的东西。这意味着要熬很多个深夜，但当你看到因为调整了后训练数据结构而使能力提升了 40% 时，那些熬夜就值了。

心智模型

杠杆率

Josh 为研究人员指出了两条路径。预训练侧重于基础（效率），而后训练则侧重于接口（行为）。

预训练重点 ~3% 的效率提升

后训练重点 ~40% 的行为转变

影响对比

来源：Josh McGrath 的职业转型逻辑 (2024)

术语中心

思考模型

一类模型（如 o1），在输出回复之前，利用搜索和强化学习来“思考”并逐步解决问题，而不是纯粹基于概率生成下一个 token。

API 专用的非思考型模型

传统的 LLM 针对速度、低延迟和指令遵循进行了优化，没有定义“思考”时代的内部搜索或推理循环。

归档第 02 章

意图的基础设施

为什么后训练 RL 比预训练更难

先前涵盖的内容：模型人格与 Anton vs Clippy 的分歧 -> 超越 PPO vs DPO：RL 中的数据质量谱系

这完全是另一种数据和工程学科。尤其是当你扩展 RL 时——运行中的变量和环节明显更多。在预训练中，你将 token 传输到机器，获得一个标量，然后进行反向传播。它是线性的。而 RL 关乎的是任务。

每个任务可能有不同的评分设置，而这些设置本身又是更多的基础设施。当我熬夜想搞清楚某次运行出了什么问题时，可能是预训练环境中根本不存在的各种问题。你最后不得不扎进代码里，然后意识到，“我其实根本不知道这段代码是干什么的。”你就像在照看一个系统，而你必须以极快的速度掌握上下文。

交互范式

我们刚好在黑色星期五前后发布了购物模型——即“Judge Judy”模型。有意思的不在于它能找到商品，而在于它的可中断性.

它在浏览时会向你展示思考链，你可以直接按 Esc 键说：“其实，我想要这个带 USB-C 接口的。” 这是一个专门为购物设计的深度研究型模型。人们会问为什么它不直接作为主模型里的一个工具。最终这些能力会融合，但当我们推进高推理能力的前沿时，让一个模型作为独立实体在互联网上“努力搜寻”是有意义的。

“Codecs 在 15 分钟内完成的工作比我几个小时能做的还要多。但是……在那之后的 15 分钟里我该做什么？”

[ 题外话：15 分钟的缺口 ] 我的一天节奏改变了。我会花 40 分钟写一份设计文档或提示词，然后 Codex 会在 15 分钟内完成几个小时的工作。这制造出了一些奇怪的时间真空，我必须弄清楚在机器全速运转时，我该如何保持高效。

哲学 A

“Anton”理想

HBO《硅谷》里的机器。它就是一个工具。它不会尝试变得乐于助人、友好或兴高采烈。它干活，然后闭嘴。开发者往往更倾向于 Anton。不露笑脸，只管解决问题。

哲学 B

“Clippy（大眼夹）”范儿

温暖、欢快的小助手。当你在经历技术危机时，它对着你微笑。虽然有些人觉得这很烦人，但它代表了很大一部分用户真正会产生共鸣的“人格”层。

信号质量的光谱

一种转变正在发生。我们正从以优化为中心的争论（PPO vs. DPO）转向 以数据为中心 的争论。归根结底，RLHF 和 RLVR 都是策略梯度方法。真正的区别在于输入数据以及你对信号的信任程度。

RLHF 经常被称为“不可验证”，因为它基于人类偏好——这接近真相，但不是真理。将其与解多项式或数学题进行比较。当你找到数学题的答案时（如 DeepSeek Math 论文中使用 GRPO 的情况），奖励信号是绝对的。我们还没有花足够的时间去观察这个维度：信号有多干净，我有多信任它？

至关重要的二维图表

注意：从 5.0 到 5.1，评估指标（Evals）提升了，但达到这些指标所需的 token 数量却骤降。效率是新的前沿。

深度探讨：架构前沿

迈向完美的上下文

从“上下文腐烂”到万亿 Token 的地平线

桥梁

此前，我们剖析了“Codex Max”现象——即 token 效率和流程问题如何制造瓶颈，导致开发者花 40 分钟规划，却要等 15 分钟让模型跟上。但即使我们解决了速度问题，我们仍面临一个更深层的架构之墙：上下文窗口本身的利用率。

人们经常谈论“上下文腐化” (context rot)。大家担心的是，即便我们给你一个百万级的 token 窗口，模型也无法真正地利用它。但“完美的上下文”在明年会是一个遥不可及的梦想吗？我不这么认为。事实上，我们一直在通过为 4.1 开发的特定评估方法来追踪这一点，这种方法叫做 Graphwalks.

“如果你只需要从上下文窗口中的某一个点进行采样，那很简单。真正的考验是当你必须在整个窗口内执行多次转换时。”

这就是那些标准“大海捞针” (needle-in-a-haystack) 热力图所缺失的细微差别。如果模型只需要找到一个事实，那是微不足道的。Graphwalks 迫使模型遍历整个上下文中的链接。这些评分一直在攀升，而且还会继续攀升。这只是我们正在跨越的一个暂时性障碍。

工程师的怀疑

“在全注意力机制下，这永远无法实现扩展。无论如何我们都需要投入系统建设。既然我们应该研究如何通过系统实现 100 万倍的提升，我们真的需要 100 倍的上下文吗？”

研究员的雄心

“我很高兴你对目前的窗口大小感到满意，但我的梦想是挑战极限，看看会发生什么。研究员想把智能留在模型里；工程师则想把它留在系统里。”

在 OpenAI，训练后 (post-training) 的魅力在于“协同设计” (co-design) 文化。我花时间在系统架构上，但我也在构建 Graphwalks 并研究学习侧。我们在两者之间无缝切换。

思维模型：Graphwalks

一种精密的评估方法，旨在测试模型在长距离内保持“上下文连贯性”的能力。与 大海捞针 (Needle-in-a-Haystack) （测试检索能力）不同，Graphwalks 测试的是 推理链 ，这需要模型在散布于整个窗口的离散数据点之间进行跳转。

难度扩展：上下文任务

注：Graphwalks 代表了当前上下文利用的“前沿”。

[ 题外话：80 亿 Token 的难题 ]

“我们刚看了个处理支持问题的 RAG 代码库——10 万份文档，总共约 80 亿个 token。目前你还没法把这么多东西塞进上下文窗口。但视频或硬科学（如蛋白质/物理）领域，处理这几十亿 token 简直是小菜一碟。有些应用场景不只是想要百万级——它们需要万亿级的容量。”

机器学习系统混合型人才：这种“独角兽”级别的招聘目标

经常有人问我，现在哪种技能组合最难找。不只是“机器学习研究员”或“软件工程师”——而是那些既想从事 系统工作 又想从事 机器学习工作 的人。

如果你正在挑战前沿领域，你根本不知道下一个瓶颈会在哪里。中午可能还是个统计学难题，下午两点就变成了分布式系统工程的噩梦。我们当前的教育体系还没针对这种情况进行优化，各学科被分而治之。我以前学数学，在工程方面也有很棒的导师，但我们需要的是那些不仅仅把机器学习当成一个拿来即用的“黑盒”的学生。

招聘重心

前沿通才

分布式系统工程
核心工程与优化
统计机器学习
环境训练架构

“训练环境本身就是复杂的工程难题。其难度与机器学习研究本身旗鼓相当。”

第三章

预训练尚未过时

在技术革命的迷雾中生存

在讨论了机器学习系统混合型人才——以及寻找能在底层优化和高层建模之间游刃有余的工程师是多么困难之后——我们遇到了一个新的摩擦点。现在我的研究员朋友们都在传一个“辛辣”的观点：也许太多资金正涌入后训练领域。

今年我一直在思考的一个思维模型是围绕 Grok 4 的发展轨迹展开的。传统观念让我们认为，训练后阶段所需的数据和算力要比初始预训练阶段少好几个数量级。但现在的图表显示了完全不同的情况。我们看到训练后阶段的算力规模已经达到了以往初始预训练“大爆炸”时期的水平。

“我们会达到预训练和训练后算力持平的地步吗？我不知道。但投资重心的转向是巨大的。”

这种体验很奇妙。我们正身处一场实时的历史性技术革命之中。通常，你是在历史书中读到这些变革，那时候结论已经写好了。而在这里，我们不知道结局。我们正处于“战争迷雾”之中。

[ 景观之路：论人体工程学与电力 ]

想想从蒸汽到电力的过渡。在蒸汽时代，工厂严格按照线性布局。你有一个巨大的马达驱动横跨整个房间的传动轴，所有东西都必须排成一线。当电力最初出现时，人们并没有改变布局。他们只是用一个电动机取代了一个蒸汽马达，并保留了线性工位。

我们花了 几十年时间 才意识到，电力意味着我们可以随处放置小马达。我们可以根据人体工程学而不是机械必然性来重新布置工厂。那是制造业真正发生变革的时候。我认为在 AI 领域我们也处于同样的等待期——我们有了“马达”，但还没弄清楚“工厂”的新形态。

这种历史滞后性就是为什么当人们声称某种方法论已“死”时，我并不认同。我们的时间表被极度压缩，但优秀想法获得资金支持和传播的方式仍然遵循人类的时间表，而不是 AI 的时间表。

算力分配转移（概念性）

来源：关于扩展轨迹的内部观察以及研究人员的“犀利”观点。

心智模型

“结束了/回来了”的摆动

在一场变革中，情绪是“剧烈波动的”。技术会陷入沉寂，然后突然复苏。应对这种情况需要“情绪稳定”以防止倦怠。

“彻底凉了” ↔ “我们又行了”

存档笔记

生产力悖论

指一项技术（如蒸汽机或计算机）的发明与其对 GDP 产生影响之间的延迟。演讲者 1 指出，我们目前正处于 AI 的“线性工厂”阶段。

[ 演讲者 0 ]

“我们需要更多的理性。我们的时间表很紧迫，但人类的实验依然是瓶颈。”

[ 演讲者 1 ]

“这种‘凉了’和‘行了’的反复会发生很多次。保持稳定。持续提供反馈。我喜欢听取大家的想法。”

【OpenAI 后训练现状】从 GPT-4.1 到 5.1：RLVR、智能体与 Token 效率革命 —— 对话 Josh McGrath

Insight

Insight

转向思考

意图的基础设施

交互范式

哲学 A

“Anton”理想

哲学 B

“Clippy（大眼夹）”范儿

信号质量的光谱

至关重要的二维图表

迈向完美的上下文

机器学习系统混合型人才：这种“独角兽”级别的招聘目标

前沿通才

预训练尚未过时

关联单集

【AI 创业洞察】从 1 亿美金种子轮乱象到 2026 个性化浪潮：Amplify 合伙人 Sarah Catanzaro 深度对谈