我是 Josh McGrath,OpenAI 的一名后训练研究员。最近,我的世界完全被思考模型和搜索相关的架构占据了。再次回到这里感觉有点超现实——上次我们坐下来聊的时候,我们还在深入研究 GPT-4.1 的内部构造。从那时起,感觉我们已经经历了一整个时代的 AI 进化。
回到 4.1 时代,我们主要关注的是我称之为“非思考”的模型——特别是侧重 API 性能的模型。但现在的重点已经发生了根本性的转变。当然,我们仍然在发布那些经典模型,但研究的重心已经转向了更复杂、更深思熟虑的东西。
“我是想追求 3% 的计算效率提升,还是想让行为改变 40%?”
人们经常问我是如何进入后训练领域的。在加入 OpenAI 之前,我的重点是预训练数据策展。但我开始阅读论文并关注新闻动态,我感觉到风向变了。预训练并不是‘已死’,但它正在成熟为一场边际收益的游戏。对我来说,兴奋点不在于挤出那一点点计算效率,而是在于行为的前沿探索。
后训练是模型真正学习如何“做自己”的过程。预训练权重的原始智能在这里被转化为有用的、对话式的或具备推理能力的东西。这意味着要熬很多个深夜,但当你看到因为调整了后训练数据结构而使能力提升了 40% 时,那些熬夜就值了。
