Dwarkesh Podcast

对话 Adam Marblestone:AI 究竟遗漏了大脑中的哪些核心底层逻辑?

2025/12/30

千万亿美元的问题

为什么大语言模型需要海量数据才能达到人类能力的一小部分?我们一直痴迷于架构,但我们可能找错了地图。秘密不在于线路,而在于奖励。

进化如同 Python 脚本

机器学习钟情于数学上优雅的损失函数。预测下一个 Token,最小化交叉熵。它干净、简单,但很可能不是我们的运作方式。

我的直觉是?进化将巨大的复杂性构建在了我们的 损失函数,而不仅仅是架构。想象一个庞大、古老的代码库——成千上万行“Python 代码”为发育的每个阶段生成特定的课程。进化已经见证了数百万年来行之有效的方法;它不会让学习听天由命。它对课程本身的知识进行了编码。

世界模型

皮层

一个全向预测引擎。与只向前看的大语言模型不同,皮层天生就设计用来填补 任何 空白。它能根据听觉预测视觉,根据抽象思维预测肌肉张力。它是终极的联想机器。

进化硬盘

转向子系统

“蜥蜴脑”。它拥有自己的原始传感器(如上丘),能瞬间检测面部或动作,在皮层还没搞清楚原因之前就触发羞愧或恐惧等反射。

“大脑是如何编码高层欲望的?进化从未见过 Jan LeCun 或播客。如果我误解了他的能量模型,它怎么知道让我感到‘羞愧’?”

“这是关于 预测性转向。皮层学会预测‘蜥蜴脑’何时会畏缩。当你听到‘你背上有只蜘蛛’时,你的皮层会泛化这个概念并触发皮层下警报。你已经将一个抽象词汇与一种古老的反射连接在了一起。”

“我们不仅仅是在预测下一个 Token;我们还在预测自己对世界的 生物反应。”

AlphaZero 效率悖论

我和 Gemini 做了一个“氛围编程”(Vibe Coding)实验。我们测试了一个激进的想法:是训练一个庞大的智能体更好,还是在总预算相同的情况下,训练一群多样化的“小型”智能体更好?

“在 16 个智能体组成的群体中,表现最好的那个——尽管只分配到了 1/16 的算力——却超越了那个独占全部预算的单个智能体。”

数据代表了多智能体自我博弈环境中的相对胜率。

当前阶段:奖励函数
下一阶段:摊销推理与基因组

摊销转向

如果大脑的核心秘诀是其奖励函数,那么它实际上是如何实时执行智能的?我们正在从缓慢的贝叶斯“采样”转向极速的“摊销推理”,这也是现代 AI 和生物感知的共同特征。

D

目前,模型是将输入映射到输出。但真正的智能是关于世界可能性的先验。计算每一个可能的原因在计算上是不可行的,你必须永远采样下去。那么,“摊销推理”就是跳过采样吗?

G

没错。贝叶斯推理是感知的最大难题。神经网络并不是每次都从零开始;它们直接将“从原因到观察”的逻辑植入前向传播中。你不需要采样;你只是知道

基因组瓶颈

生物学中有一个巨大的谜团:如果你想把进化比作预训练,那么你如何解释基因组传递的信息如此之少?我们说的是**3GB**。这就是人类基因组的总大小,其中只有极小一部分是为大脑编码的。

如果你想把一个万亿参数模型的权重“硬编码”到 3GB 的磁盘空间里,你会立即失败。那么,进化实际上存储的是什么?

答案是:**损失函数。**

在 Python 中,奖励函数简直就是一行代码。你可以用一千行代码来定义“蜘蛛畏缩”或“社会联结”,而它几乎不占空间。进化并没有寻找权重,它寻找的是 超参数 以及 奖励信号,它们迫使大脑在生命周期中学习这些权重。

数据点

3.2 GB

人类基因组总大小

洞察

“奖励函数非常精简。学习子系统则是一个通用的八层 Transformer,被复制了数百万次。”

“引导”大脑的多样性

新的单细胞图谱揭示了鲜明的对比:皮层(学习部分)是重复且统一的,而引导区域(奖励部分)则是各种定制细胞类型的多样化乐园。

学习子系统 中,你只是在重复层级。编写一个 8 层 Transformer 的 “Python 代码” 并不比 3 层的长多少。它是可扩展且重复的。

但在 引导子系统 中,有“无数”种古怪的细胞类型。一种用于对蜘蛛的畏缩反应,一种用于对盐味的感知,一种用于母婴联结。这些是先天硬连线的电路。它们不学习,而是 引导 学习。

“大脑皮层并不知道蜘蛛是什么。它只知道层和梯度。引导子系统才是存放所有定制化、物种特有的‘杂碎’的地方。”

进化转折点

“我们并没有发明更好的大脑,我们只是找到了更好的 激励 来让它生长。”

为什么原始人类的大脑体积会爆炸式增长?这并不是因为皮层架构有了突破。老鼠的皮层和人类的皮层惊人地相似。

其中的关键在于**社会化学习**。进化调整了奖励函数,使其更加重视共同目光接触、语言线索以及对长辈的模仿。这增加了拥有更大皮层的“投资回报率”。一旦奖励函数将社会化数据置于优先地位,缩放定律就开始发挥作用了。

下集预告:我们将深入探讨这种反馈机制如何区分人类大脑中的基于模型(Model-based)与无模型(Model-free)强化学习。

前情回顾:摊销推理与基因存储

强化学习的“笨拙”现状

为什么当前的大语言模型正在使用最原始的学习形式——却不知为何依然大获全胜。

“这居然能行,确实挺疯狂的。”

目前我们训练大模型时,如果它们解出了一道数学题或通过了单元测试,我们就直接增加整段 Token 轨迹的权重。这是种暴力方法。甚至 Ilya Sutskever 在播客中也指出过——我们竟然不使用 价值函数 (Value Functions)

回想十年前那个玩 Atari 游戏的 AI,它使用的是 Q-learning。它能感知行为的长期后果。而现代大模型呢?它们是为 GPU 优化的,而不是为了强化学习的概念优雅性。我们正用着最“笨”的强化学习形式,却看到了不可思议的结果。

“神经科学应该是 基本事实 (GROUND TRUTH)。”

双系统大脑

1. 基底核(无模型系统)

这是我们脑子里的“笨”强化学习。它的动作空间有限且狭小。它告诉脊髓:执行这个动作。是还是否?它简单、原始,而且快得惊人。

2. 皮层(基于模型系统)

这是高级玩意儿。它构建世界模型。它不只是做出反应,它还会预测。它会问:在这些特定情况下,什么样的计划能带来奖励?它是作为推理的强化学习——锚定“高奖励”变量,并采样出能带我们实现目标的计划。

多巴胺与预测误差

神经科学表明,多巴胺不只是“奖励”——它是一个 奖励预测误差 (RPE) 信号。它是预期与现实之间的差距。

题外话

文化作为一种无模型算法

想想乔·亨里奇(Joe Henrich)关于文化演化的研究。如果不经过 10 个步骤的清洗,一个社会如何发现某种豆子是有毒的?并没有哪个人坐下来专门“建模”分析其化学毒性。

“文化就像是在文明层面发生的无模型强化学习(Model-Free RL)。进化是最简单的算法,如果我们相信这一切——也就是我们——都源于进化,那么只要运行时间足够长,简单的算法就能造就一切。”

我们拥有一套层层堆叠的“无模型”与“基于模型”系统的层级结构:

进化: 无模型(外循环)
基底神经节: 无模型(运动/习惯)
皮层: 基于模型(世界建模)
文化: 无模型(世代传承的知识)
合作伙伴笔记

训练现实世界中的智能体

谈到无模型文化和隐性知识——有些东西你就是无法从手册中学到。LabelBox 为您的 AI 智能体提供专业知识和架构,以捕捉那种“核保师的直觉”。

了解更多信息,请访问 labelbox.com/thwarkash
下一篇:
生物硬件究竟是限制还是优势? →

硬件悖论

我们花了很多时间讨论思维的“软件”——即基于模型与无模型的强化学习。但当这些算法不是刻在硅片上,而是刻在血肉之中时,会发生什么?我们是因为生物性的局限而更聪明,还是尽管存在这些局限而依然聪明? 能量预算20 瓦。

大脑以 200 Hz 的频率运行,功耗仅相当于一个昏暗的灯泡。为了生存,它进化出了极度的“非结构化稀疏性”,并将存储与计算合二为一。

复制难题

不可变更。

你无法对神经元进行“读写”。我没法把我的权重矩阵拷贝到你的脑子里。这种随机访问的缺失,在生物学上是对扩展性(scalability)的一次巨大蔑视。

认知灵活性

采样。

神经元天然具有随机性。Python 需要随机数生成器,而大脑天生就是概率性的。它生来就是为了推理。

“拙劣拼凑” vs 机器中的幽灵

大脑的细胞机制——所有那些基因变化和分子机器——是真的在进行“算法”层面的工作,还是仅仅是以一种混乱的方式来实现权重?

The "Kludge" vs. The Ghost in the Machine

Is the cellular machinery of the brain—all those genetic changes and molecular machines—actually doing algorithmic work, or is it just a messy way to implement weights?

想想看:在数字大脑中,你只需微调一个参数。很简单。但在细胞中,要根据梯度信号调节突触,你得和细胞核沟通,再发回信号……这是一项庞大的后勤工程。我倾向于认为,细胞中大部分那种“疯狂的机制”其实只是为了在没有中央控制器的情况下实现突触学习所需的基础设施。

但也有例外。看看小脑。它在计时方面非常出色——比如精确预测闪光后气流何时会吹到你的眼睛。事实证明,细胞体本身可能就在存储这些时间常数。它不只是一个突触环;硬件本身就是时钟。

“我们拥有的最出色的计算神经科学理论,最初都是作为 AI 模型被发明出来的。”

— 论逆向工程大脑的讽刺之处

AI 视角

“回形针最大化器需要社交大脑吗?没有人类的‘转向子系统’,你能实现 AGI 吗?”

现实审视

“我们已经从大语言模型(LLM)中得知,不需要眼神交流也能学习语言。但要造宇宙飞船?你需要好奇心和探索欲。这些才是我们需要对齐的‘驱动力’。”

一些神经科学家,比如尤里·布扎基(Yuri Buzaki),认为我们在胡扯。他们认为我们的 AI 词汇——“反向传播”、“权重”、“层”——不过是我们强加给大脑的虚构语言。他们想要一种基于物理动力系统和振荡的自下而上的词汇。

我认为:为什么不能兼而有之?我们应该自下而上地模拟斑马鱼,但我们不应忽视这样一个事实:时序差分学习 (TD learning)—萨顿(Sutton)在白板上写下的一个方程—实际上出现在多巴胺信号中。这不只是巧合;它是一张地图。说到地图,如果我们真的想平息这场辩论,我们需要确切地看到这一切是如何连接在一起的……

此前,我们质疑生物硬件是否是瓶颈。但要真正揭开谜底,我们需要的不仅仅是直觉——我们需要蓝图。

探索脑连接组

如果我们拥有了大脑的完美表征,这到底有什么意义?它的核心在于从“黑盒”直觉转向一种架构和学习规则的语言。

“我觉得我们并没有真正解释清楚为什么大模型是智能的……我们造出了它们,却没能理解它们。我想用同样的架构和超参数语言来描述大脑。”

别再纠结于“金门大桥”神经元了

可解释性研究中存在一种执念,即寻找特定的“电路”——即编码单个概念的确切神经元集群。但我认为那是个陷阱。如果你训练一个神经网络来预测股价或计算圆周率,它内部会进行极其复杂的计算,而我们可能永远无法从传统意义上对其进行完全“测绘”。

相反,脑连接组 为我们提供的是一套约束条件。我们不需要知道大脑是如何计算一座特定的桥的;我们需要知道它是基于能量的模型、VAE,还是在进行反向传播。前额叶皮层和听觉皮层之间的连接方式是否与视觉皮层相同?

“问题在于,通过定制化实验来学习基础知识需要耗费漫长的时间。而获取脑连接组……效率要高得多。”

令人惊讶的事实

下丘脑的细胞类型比整个大脑皮层还要多。

鼠脑成本(预测值)

技术规模化:通过光学并行化,将成本从数十亿美元降至数千万美元。

基因组类比

人类基因组计划耗资 30 亿美元。随后,乔治·丘奇(George Church)等人改变了范式——从宏观化学转向并行显微技术——将成本降低了一百万倍。我们现在对大脑也在做同样的事情。

光学 vs. 电子

电子显微镜将组织切成薄片,但会丢失分子细节。光学连接组学(E11 的押注)利用光子来观察“脆弱、精细的分子”——这为我们提供了分子标注的 一张地图,而不仅仅是物理意义上的。

“实用性”愿景

2027

“短时间线”情景。连接组学可能还派不上用场;我们仍在大语言模型(LLM)的浪潮中博弈。

5-10 年

变革窗口期。从 LLM 转向类脑、基于模型的强化学习(RL)架构。

10 年以上

完整的“大脑蒸馏”——利用神经模式作为辅助损失函数来雕琢 AI 行为。

蒸馏大脑。

如果 AI 训练不仅仅是“猫还是狗”呢?如果我们增加一个辅助损失函数,强制 AI 对猫的表示方式 与你视觉皮层处理的方式相同呢? 我们谈论的是脑数据增强智能。

终极正则化
如果我们可以通过绘制大脑地图来精通 AI,那么当我们把这种力量转向抽象领域时,会发生什么呢?
接下来:数学自动化会有什么价值?
我们一直在绘制物理大脑的地图以了解其局限性。但我们正开始自动化另一个领域:数学那个抽象且严谨的世界。如果大脑是智能的硬件,那么数学就是它最可验证的软件。

Lean 革命

Lean 是一种编程语言,它强制你以计算机能理解的方式来表达数学证明。它不再是关于“相信”数学家在纸上的涂鸦;而是关于机器点击一下 验证 并以 100% 的确定性知道,你的结论是从假设推导出来的。

完美反馈闭环

为什么这对 AI 至关重要?因为它创造了一个完美的 强化学习 (RL) 信号。就像 AlphaGo 可以通过自我对弈成为世界上最强大的围棋选手一样,AI 现在也可以“玩转”数学。

如果一个证明是机械可验证的,AI 就能确切知道它何时获得了成功。我们将对数学证明进行“疯狂的强化学习”。这是从混乱的概率性猜测向严密、不可否认的逻辑的转变。

“道德复杂性”损失函数

创造力可以自动化吗?或许可以。一个“好”的数学猜想是能压缩信息的——它是一种强大的解释,能让数十个其他定理的证明变得更容易。我们实际上可以开始衡量这种“解释力”了。

猜想 vs. 证明

证明是机械性的。提出猜想则是概念上的重组。我们正将人类的负担从验证引理转向高层级的策略。

网络安全利好

如果你能证明黎曼猜想,你就能证明一段软件是无法被黑客攻击的。可证明、稳定且安全的软件是对抗 AI 驱动型攻击的终极防御。

“数量本身就是一种质量。我们正迈向自动化的‘聪明才智’。”
氛围编程

我们是否正在失去对底层机制的“扎实直觉”?如果你从未学习过汇编语言,你真的了解机器吗?还是说,更快的反馈循环能让你成为一个更强大的架构师?

局外人物理学家

就像 Steve Byrnes 不必身处实验室就能综合神经科学知识一样,我们可能会看到“局外人弦理论家”。如果机器能处理数学,天才想法的准入门槛将降至零。

未来的 AI 文明

想象一个 AGI 仍需 10 年才能实现,但我们已经有数十亿个“自动化才智”实例在运行的世界。它们如何协作?它们不能仅仅共享“神经元激活”——那是黑盒。

未来 AI 文明扩展的唯一途径是通过一种 通用的、可证明的语言。如果论证的每一步都可以进行机械验证,那么“木星大脑”就可以在彼此的工作基础上进行构建,而不必担心被利用或受到社会影响。

我们可能正在回归符号化方法,不是因为神经网络失败了,而是因为我们终于有了足够的“聪明才智”让符号化在大规模上发挥作用。我们正在构建未来受保护的世界模型,它们是由等式定义的,而不仅仅是权重。

正如陶哲轩所言,我们不再仅仅是每次证明一个定理。我们正在研究“所有”可能被证明的定理的图景——即所有可知事物的总集。

接下来

如果数学是宇宙的软件,那么最初发现它的生物机器的具体架构又是怎样的呢?

下一篇:大脑的架构 →

湿件架构

我们刚才谈到了数学自动化,但底层基质在做什么?如果我们正在硅基上构建世界模型,我们就必须问:生物原型究竟是如何表征现实的?

大脑是一种“符号语言”,还是仅仅一个隐藏状态?

当我们谈论符号表征时,我不仅仅是在问功能。我想知道大脑是否拥有类似于神经网络隐藏状态的东西,或者它是否更接近一种形式语言。事实是,我们并不知道。我们看到了处理视觉几何形状的“面部斑块”神经元,也看到了在啮齿动物海马体中创建空间地图的“位置细胞”。

“我的直觉?那将会是一团乱麻。我不指望里面会很整洁。它可能不是一种符号语言,而是各种架构、损失函数和学习规则的混沌交集。”

“它甚至可能涉及 ”新物理学。”

— 论意识体验之谜

持续学习问题

在反向传播中,我们会冻结权重。而在大脑中,海马体不断地将记忆“回放”给皮层——这是一种生命系统的巩固。这是一种我们在人工智能中尚未完全攻克的多时间尺度可塑性。

快速权重

是否存在生物层面的 KV 缓存?我们拥有权重和激活值,但丘脑门控信息的方式表明,其“注意力”水平可能会让 Transformer 显得简单。

映射生物学鸿沟

“鸿沟地图”与迷你哈勃

我们一直在孵化“聚焦研究组织”(FRO)——科学领域的非营利“登月计划”。当你和科学家交流时,你会发现他们需要的不仅是“更多研究”,而是基础设施。

我把这些称为 “迷你哈勃空间望远镜”。 它们本身并不是发现,而是能带动整体进步的工程壮举。我们已经规划了数百个这类基础能力——从连接组学到数学证明基础设施。

可视化科学基础设施缺口

DWARKESH

我原以为数学家只需要白板?

ADAM

我也是!但事实证明,即便数学也需要规模。他们需要 Lean,需要可验证的编程语言。我们现在需要在 每一个 科学领域实现规模化。

从我们大脑中的神经元到屏幕上的证明,规模正是那个缺失的关键要素。

关联单集