深度洞察:2025年12月AI进展前瞻(音频版)
规模化悖论
如果我们真的接近类人学习者,那么当前将技能“预烘焙”到模型中的路径就是一个巨大且昂贵的死胡同。要么 AGI 指日可待,这些手动训练循环毫无意义;要么它还远着呢,而我们只是在构建更好的 Excel 模板。
博士供应链
数十亿美元正被支付给专家,让他们手动编写推理路径。这不仅仅是“规模化”——这是在向一个尚无法自主学习的系统中,大规模暴力注入人类智能。
学习差距:人类 vs. 前沿模型
这让我想起了那个老笑话: “我们每笔销售都在赔钱,但我们会靠走量赚回来。” 我们正在规模化一个缺乏儿童基本学习能力的自动化研究员。
繁琐费力的训练循环
最近我和一位 AI 研究员以及一位生物学家共进晚餐。生物学家对短期实现 AGI 持怀疑态度。她描述了自己的日常:看着载玻片,判断一个点是巨噬细胞还是仅仅是一点碎片。AI 研究员立即反驳道:“图像分类是教科书级的深度学习问题!”
但他完全搞错了重点。 人类劳动的价值恰恰在于,我们不需要为每一个微小任务构建定制的训练循环。
为“这个特定的实验室”如何准备载玻片构建一套定制流程,再为下一个实验室的烂摊子构建一套,然后再为之后的一个又构建一套,这是没有效率的。你真正需要的是一个能像人一样从语义反馈中学习的 AI——“不,那只是个污迹,忽略它”。
实验室目前的行为暗示了一种世界观,即模型在泛化方面将继续表现不佳。他们正在预先灌输“顾问技能”和“Excel 熟练度”,因为他们不相信模型能在工作中学会这些。
扩散滞后(Diffusion lag)就是 自我安慰。
人们说 AI 之所以没有无处不在,是因为技术扩散需要时间。我认为这只是一种粉饰。如果这些模型真的是“服务器里的真人”,它们会瞬间普及。我们是在利用“扩散”作为借口,来掩盖模型根本不具备产生广泛经济价值的能力这一事实。
但等一下——如果标准一直在变,这真的合理吗?接下来,我们将探讨为什么强化学习(RL)的规模化可能才是正解,即便所谓的“扩散滞后”论只是个幻想……
收入现状核查
如果我们真的拥有了 AGI,为什么那些实验室还没赚到几万亿?“扩散滞后”的说法现在看起来越来越像是某种强行找补。
人们总爱谈论大公司采用新技术有多难。但说实话:AGI 将是历史上最容易招募的对象。它不需要三个月的入职培训;它能在几分钟内读完你所有的 Slack 记录,并瞬间从你现有的 AI 阵营中提炼出每一项技能。
“人类招聘市场是一个‘柠檬市场’——既有风险又昂贵。而启动一个经过验证的 AGI 实例?那是零风险的规模化扩张。”
万亿美元的差距
为什么实验室离这个数字差了几个数量级?因为模型还没达到人类水平。仅此而已。
"改变标准是合理的,当你意识到目标其实比你想象的要小时。"
强化学习(RL)的“洗白”计划
现在有一种趋势,试图借用预训练缩放定律(目前这几乎被视为物理定律)的名声来为强化学习(RL)“洗白”,以此证明对其看好的合理性。但数学逻辑看起来并没那么严密。
Broad 指标
"我们需要将强化学习的总算力进行大约一百万倍的规模提升,以获得类似于单代 GPT 水平的提升。"
— Toby Broad,研究员
我们讨论软件奇点,即 AI 编写出比自己更聪明的后继者,但我们忽视了最可能的路径:在特定领域中琐碎、艰苦的经验积累。
“蜂群思维”之路
GPT-3 展示了少样本学习。我们原以为这已经解决了,其实不然。
实验室发布了“持续学习”功能。这是进步,但并非终局。
人类水平的在岗学习终于开始步入正轨。
经验是瓶颈
人类是如何进步的?靠经验。想象一下,智能体被部署到专门岗位,创造价值,然后将这些学到的内容带回“集体大脑”模型进行批量蒸馏。
这不是一项“一蹴而就”的成就。这是智能向经济领域的一次缓慢渗透。萨提亚(Satya)可能会称之为“胜负已定”,但我怀疑,这会是一场比奇点论者愿意承认的更加激烈、更具竞争性的苦战。
领奖台正在轮换。
每个月,三巨头都在轮替。人才挖掘、旧金山的小道消息以及逆向工程,已经抵消了任何“遥遥领先”的优势。没有人能从竞争中脱身。
“模型变得越来越惊艳的速度符合短期时间线的预测,但变得越来越实用的速度则符合长期时间线的预测。”
结语摘自 dwarkesh.com 的文章

