Latent Space: The AI Engineer Podcast

【OpenAI 后训练现状】从 GPT-4.1 到 5.1:RLVR、智能体与 Token 效率革命 —— 对话 Josh McGrath

2025/12/311653
Editorial Note
从 GPT-4o 到 o1、o3,再到 GPT-5 的“思考”模式及购物模型,OpenAI 研究员 Josh McGrath 亲历了后训练(Post-training)技术的完整演进。在 NeurIPS 2025 的这场深度对话中,我们揭秘了通往 2026 年的技术路线:为什么 RLHF 正在向 RLVR(基于可验证奖励的强化学习)进化?DeepSeek 的 GRPO 算法为何被低估?为什么说 Token 效率(从 GPT-5 到 5.1 的跨越)比运行时间更重要? 此外,Josh 还探讨了后训练基础设施中比预训练更复杂的“工程混沌”、Codex 智能体如何重塑开发工作流、以及为什么当前 AI 实验室最大的瓶颈是缺乏兼通“分布式系统”与“机器学习”的复合型人才。从模型个性(Anton vs Clippy)到 1000 万超长上下文与图搜索的博弈,本文将带你透视 OpenAI 顶尖研究员眼中的 AI 范式转移。
Voices
    Keywords
    Chapter 01Read Full

    Insight

    关联单集