"The Cognitive Revolution" | AI Builders, Researchers, and Live Player Analysis

问答实录(上):Claude Code 触及 AGI 了吗?深度解析 AI 泡沫与全球竞争格局

2026/1/96879

AMA:个人专场

“我最近的日程安排有点疯狂……所以这里没有人向我提问。我在自己读这些问题。”

欢迎回到 《认知革命》。今天我们打破了标准的嘉宾访谈模式,开启一场更为私密的对话。在AI发展的惊人速度与历经磨难的个人生活之间,主持人独自拿起麦克风,回应社区最迫切的提问——从那个最重要的问题开始。

厄尼:康复之路

去年11月,我们分享了厄尼被诊断出患有癌症的消息——这是一种极具侵略性的疾病,癌细胞每24小时就能翻倍。今天,这份报告既带着奋斗的沉重,也透着希望的轻盈。

他已经走过了一半的历程。三次化疗结束,还有三次。代价是显而易见的:他的体重从51磅降到了弱不禁风的41磅。他面色苍白,消瘦且疲惫。但在表象之下,数据讲述了一个奇迹般的反攻故事。

“PET扫描显示没有明显的癌症病灶。我们的肿瘤科医生和肿瘤委员会一致认为:厄尼已正式进入缓解期。”
治疗状态 第3/6轮

正在过渡到“更温和”的最后几轮。

体重因素 -10 磅

在脱水与恢复之间波动。

临床前景 缓解期

在第二轮开始前已确认。

AI引导的MRD检测

在这段旅程中,科技与生命最深刻的交汇点之一,便是利用AI来确定 微小残留病灶 (MRD) 检测——这种方法虽尚未成为标准护理,但对于获得内心的安宁至关重要。

B细胞会以独特的“指纹”重新排列其DNA。当癌症发作时,那个指纹会被克隆。通过对其进行测序,我们现在可以在数百万个健康细胞中追踪到单个癌细胞。

癌细胞DNA含量的降低

注:这代表了99.9999%的降幅,从每10个细胞中有1个癌细胞,减少到不到百万分之一。

社区安全网

在应对家庭健康危机期间,维持每月八期的更新计划是不可能的。致那些关心我的听众,以及慷慨提供内容的播客同行们:谢谢你们。

我们引进了来自以下播客的精彩深度内容:Agents of ScaleChina Talk以及Doom Debates。这既是丰富大家信息源的契机,也是维系我个人精神状态的必需。

近期转播亮点

  • Wade Foster (Zapier)谈规模化。
  • z AI (中国)谈全球大模型竞赛。
  • Max Tegmark 对阵 Dean Ball谈 AI 生存风险。
  • Emmett Shear做客 a16z 播客。

“还有两个半月。届时,我们将开启回归正常的漫长征程——包括为他的整个免疫系统重新接种疫苗。一步一个脚印。”

Claude 4.5:是 AGI 降临,还是止于“氛围感”?

在分享了 Ernie 健康状况的近况后,焦点转向了辅助这段旅程的硅基大脑。新版 Claude 究竟是本质上的“阶跃式变革”,还是我们仅仅在医院候诊室里更擅长“氛围编程”(vibe coding)了?

“今年在医院里,我为家人编写了三个应用作为圣诞礼物,”讲者提到,将 AI 热潮植根于纯粹的实用主义。虽然进步“显而易见”,但对于 AGI 这一标签,他保持着一种令人耳目一新的审慎。

“我不会说这已经是一种阶跃式的改变……甚至到了跨越某个重大门槛的地步。”

癌症病例处理协议

救人无需成为提示工程专家,你只需要在极高风险的环境中使用 AI 时,遵循三条不可逾越的准则。

1

订阅顶尖模型

只要有“Thinking”或“Opus”可选,就不要止步于“Pro”。在生命攸关的时刻,每月支付 200 美元 来获取顶级智能是理所当然的。立即升级是你的首要任务。

2

上下文为王(警惕摘要)

压缩历史记录会降低效能。“当全部历史被压缩后,它就不再具备那种细致入微的深度,甚至无法精准调阅昨日的化验结果。” 务必提供全貌——基因谱系、药物反应以及原始实验数据。

3

三重交叉验证

绝不可偏信单一的硅基见解。应同时将查询提交给 Gemini 3、Claude 4.5 Opus 和 GPT 5.2 Pro。真相便存在于它们迥异偏见之间的博弈与碰撞中。

寻找 “金发姑娘” 模型

讲者解析了当前主流模型的“性格特征”。尽管它们都令人印象深刻,但各自承载着独特的行为标识,这决定了用户应如何审视并解读其输出结果。

Gemini 3: 原始、未经系统提示词打磨,且展现出极强的“主见”。
Claude 4.5 Opus: “金发姑娘”式的最优选。迅捷、洗练,恰到好处。
GPT 5.2 Pro: 冗长的分析师。输出长篇累牍、条分缕析的报告式结果。

模型效能图鉴

基于讲者定性“氛围”评估的对比可视化呈现。

“我认为它相当值得信赖……但以 三重校验 的方式进行是绝对值得的。”

—— 评估 AI 在重症监护中的价值

技能悖论

AI 究竟是让我们变得更高效,还是仅仅让我们在犯错时更加自信?本节将探讨“氛围编程”与专业工程化之间的鸿沟。

敬畏数据,挑战叙事

话题从 AI 驱动肿瘤学的高风险前沿转回深层思考:我们究竟从这些模型中提取了多少价值?Nathan 谈及了 Miri 研究 ,该研究表明 AI 实际上可能会拖慢专业开发者的进度。

“我敬佩玛丽·安(Mary Anne)……投身科学,汇报成果。只要你相信结果的真实性,就应当放手去实验并分享所得。”

Nathan 自视为一名 “氛围程序员”。尽管该研究聚焦于 AI 恐难应对的高标准遗留代码库,但 Nathan 指出,对于黑客和快速原型开发者而言,其中的门槛更低。悬念依然待解:4.5 Opus 究竟是精英工程师手中的利刃,还是灵感型业余爱好者的桥梁?

合作伙伴亮点

Tasklet:永不“罢工”的智能体。

传统的自动化模式如同脆弱的纸牌屋,仅仅一个意外的数据字段,就足以让整个工作流土崩瓦解。Tasklet 摒弃了僵化的流程图,代之以能够自主推理 3,000 多种商业工具的 AI 智能体。

优惠码:COGREV(五折优惠)

全天候运行

无需手动触发,仅凭自然语言指令即可驱动。

3k+

集成

可连接至任意 API、MCP 服务器或 UI。

假期冲刺营

三个工作日,三个功能完备的应用,且无需任何预置文档。这便是由 Claude 驱动的“氛围编程”(Vibe Coding)工作流之威力。

旅人

无麸质意大利

一款为“完美主义旅行策划者”量身定制的 Replit 应用。它通过爬取意大利餐厅评论并精准筛选无麸质选项,将个人品味深度融入代码逻辑之中。

技术栈:REPLIT + CLAUDE 3.5/4.5

模拟器

EA 全球活动

模拟虚拟空间中参会者的随机邂逅。AI 将宏观的概念性调整转化为微观的配置参数修改,以此预测活动 ROI 的波动与 KPI 的走势。

技术栈:PYTHON + 智能体化配置

交易员

自然语言 Alpha

通过 `yfinance` 将口语化的交易策略转化为可执行的 Python 代码。其初衷?在于深刻揭示——想要跑赢大盘究竟有多难。

技术栈:YFINANCE + CLAUDE + PYTHON

市场现实的审视

Nathan 的私心之一,是想向父亲证明:即便有 AI 辅助构建回测工具,仅凭简单的启发式策略也几乎不可能跑赢标普 500 指数。

“刚开始时,我并不清楚自己将走向何方。我只是从一场与 Claude 的对话开始的。

3 天,3 个应用,1 个模型。

假期技术栈

从“圣诞礼盒般的氛围编程”迈向硬核实战:Claude 3.5 Opus、Replit 以及全新的 Claude Code CLI。

“我不能说它与以往有天壤之别,但那种反复的碰撞——功能的构思、方案的规划——全都自然地汇入 Replit。我只需在那里安装 Claude Code,把计划交给它,然后任由它去构建应用。”

架构中的幻觉

即便是在“氛围编程”的世界里,物理法则依然适用。在开发一款旅行规划应用时,AI 撞上了一堵人类开发者绝不会遇到的墙:它凭空构想出了一套幽灵基础设施。

事故报告

“结果我们得到了两个数据库。这种错误人类是不会犯的。开发者不会无缘无故地突然意外启动一个完全独立的数据库。”

罪魁祸首?**智能体搜索(Agentic Search)**。Claude Code 在它预期能找到东西的地方搜寻。它对标准文件位置持有某种“高先验”倾向。当逻辑纠缠不清时,智能体不断在自己扭曲的地图中搜寻,印证着自身的偏见,而非正视它所制造的混乱。

屡试不爽的老套路

“我依然发现,用一段简短的脚本将整个应用打印到单个文本文件中大有裨益。我会把它带入一个干净的 Claude.ai 对话中,请求它对整个代码库进行完整分析。”

诊断

当情况变得诡异时,全上下文胜过智能体搜索。

解决方案

五六个提示词便理清了那个数据库幽灵。在一年前,这足以让项目夭折。

“软件 AGI 已经降临。”

但真正的通用人工智能?我们或许还得再等上一段日子。

GPTEval:AI 与人类的偏好之争

数据基于最新的 GPTEval 基准测试(Anthropic/OpenAI)。

数据呈现出“剧烈波动且参差不齐”的态势。观察软件工程任务可以发现,模型正以压倒性优势获胜。这些并非入门级的脚本,而是由专家定义并评判的专业水准任务。

然而,转向视频剪辑——即“短片”市场——人类依然坚守着阵地。那种 Dwarkash 式剪辑的微妙神韵,目前的模型权重尚且难以企及。

“如今你其实并不需要懂编程。你只需看着它运行。它就是你电脑里的贴身智能体。”

“项目杀手”的终结

1
撞墙期

某些环节出了差错。AI 陷入迷茫,你也一头雾水。项目通常在这一步便宣告夭折。

2
探路

如今的“感性编程”支持进行“探索性询问”。你调试的不再是语法,而是意图。

3
修复与重生

软件的可触达市场得以扩张,因为你终于能够从 AI 无意间造成的混乱中脱身。

下篇预告:AI 泡沫之辩

市场脉动

AI 泡沫是否即将破裂?

抛开 Claude 4.5 的架构细节不谈,我们来到了那个价值万亿美元的终极拷问:我们正在见证一场技术革命,还是一个金融狂想梦?

“我认为,那种认为我们都在集体沉迷于 AI 幻象的观点——这种说法大可以休矣。”

技术是 真实的

当一个模型能够与人类肿瘤专家并驾齐驱——全天候候命、具备语境感知力且极度精准——你看到的绝非昙花一现的潮流,而是一场 颠覆性的变革。

然而,“真实的技术”并不总能等同于“稳妥的投资”。幕后正上演着大量的金融财技。以 CoreWeave 等公司为例。它们之所以存在,很大程度上是因为运营大规模 GPU 集群的财务特征对微软这类公司缺乏吸引力,毕竟后者青睐高利润、低资本支出的软件模式。

通过将数据中心的繁重负担外包,超大规模云服务商保护了股价免受低利润基础设施的拖累。但这同时也催生了一种新型的 脆弱性。如果 GPU 需求出现哪怕是轻微的下滑,相比那些资金雄厚的科技巨头,这些专业实体的容错空间要小得多。

“泡沫破裂前我曾在抵押贷款行业工作。当时人们所做的一切似乎都有其逻辑……我们都在给自己讲一个极其动听的故事。”

预测与现实

铁路类比:轨道(AI 基础设施)终会被使用,但负责修建轨道的公司仍可能面临破产。

收入悖论

“我高估了 2025 年的技术能力进展,却低估了收入的增长速度。目前的需求甚至超出了怀疑论者的预测。”

风投资本的浮沫

当前这种疯狂最令人咋舌的例子? Arena(前身为 LMSYS) 正在融资 1.5 亿美元,而其估值高达 17 亿美元

等等,什么?
预告:风投浮沫的真相与中国模型的崛起……

风投浮沫与幻象指标

当“免费使用量”被粉饰成“消耗运行率”,以支撑起独角兽级的估值。

“我有据可查。我从 2023 年中期就在用 LMSYS 了,当时它只是我手机 Safari 浏览器里用来对比模型的一个标签页。它是个好产品。但 17 亿美元的估值?”

业界刚看到一条推文,声称其 “年化消耗运行率” 达到了 3000 万美元。说实话:这到底意味着什么?我肤浅的理解是,这仅仅是人们进行免费横向对比时所产生的算力成本。

这让我强烈地想到了 “社区调整后息税折旧及摊销前利润 (Community Adjusted EBITDA)” 的气息——那个臭名昭著的 WeWork 时代指标。宣称人们在你的平台上使用了价值 3000 万美元的免费 AI,并不等同于赚取了 3000 万美元的收入。护城河在哪?收入又在哪?

“这太贵了,我消受不起。” 竞争对手

Multiplicity (Andrew Critch):

这是一个在几个月内打造出的、功能丰富的付费工具,支持系统化的模型对比。它确实向用户收费,拥有真正的商业模式。估值陷阱

The Valuation Trap

风险投资者正在押注品牌,但如果用户需要付费,他们还会留下来吗?“免费层级”市场规模宏大,而“付费测试”市场则微乎其微。

性能差距真实存在

有一种说法认为中国模型正对美国的前沿模型“步步紧逼”。我决定用一项繁杂的现实任务来对此进行测试: 汽车销售文书工作的自动化。

这些是扫描的、倾斜的、且带有大量瑕疵的政府表格。这是对感知与推理能力的终极考验。我让所有模型都参与了测试:Qwen、GLM 4.6、Kimi、DeepSeek。

结果如何?它们甚至难望其项背。

文档忠实度对比(内部测试)

注:中国模型在处理幻觉和表格结构方面表现吃力,捕获的相关数据仅占 20%。

Gemini 难题

Gemini 3 表现卓越,但有时却“聪明反被聪明误”。它利用先验知识来“猜测”答案。如果“美国公民”一栏未勾选,但姓名听起来像美国人,Gemini 仍会将其勾选。它是在推断,而非阅读。

Claude 的胜利

Claude 3 Opus (以及 4.5) 是唯一能够严格锚定文档的模型。通过恰当的提示,它不再盲目猜测,而是开始忠实地进行转录。

“中国公司正在影响研究领域——他们公开一切成果。但在原生、特异性、随机任务的表现方面呢?芯片管制正产生显而易见的影响。差距并未缩小,反而依然巨大。”
下期预告

地缘政治与硅:H200 出口困局

H200 握手

拨开风险投资估值的泡沫,我们触及了硬件的残酷现实。如果中国模型在参数规模上能够并驾齐驱,为什么在现实世界的消耗战中却处于下风?

普遍观点认为,芯片管制的目的是阻断训练。但发言者提出了一个更微妙的现实: 关键在于推理的规模。 尽管中国实验室能够训练出接近前沿水平的模型,但他们缺乏庞大的部署规模,以及驱动美国巨头发展的关键反馈闭环。

“这些中国公司似乎在构建同等规模模型方面大致具备竞争力,但他们在推理运行的规模上却远不可比拟。他们的营收微乎其微……从客户那里获得的反馈似乎也少得惊人。”

这形成了一种“强者恒强”的现象。如果没有数以百万计的多样化用户交互来修补特定领域的细微差距——例如阅读复杂的政府文件——中国的“飞轮”仍将停留在地面,而美国版则已达到逃逸速度。

不断扩大的性能差距

基于用户测试的特定任务的相对性能差距。

“这里真正的‘异类’是 人工智能,而非中国人。中国人是和我们一样的人类。人工智能则是 外星生物。”

—— 硅基时代的人类团结呼唤

转向

特朗普在与黄仁勋(Jensen)交谈后,从禁止 H20 转向批准 H200。政策版图发生了剧变。

批判

“我们其实并没有换回任何东西。”在没有达成大宗交易的情况下出售最强大的芯片,被视为错失了筹码博弈的巨大良机。

替代方案

“租而不卖。”在中立领土(如马来西亚、日本)托管数据中心。允许算力访问,但保留对硬件的主权控制。

深度反思

中美之间的互不信任呈现出一种令人不安的对称性。当我们将矛头指向“独裁狂人”或“不稳定的体制”时,讲者指出,大洋彼岸也经常向我们投射回同样的批判。

“嘿,你们国家正由一个独裁狂人掌权。”
“你说的是哪个国家?你们的体制显然也不稳定。”

最终,呈现出来的愿景并非孤立,而是合作的沃土。当我们从“强人工智能”迈向超人工智能时,对全球治理者——一个中国位居首位的机构——的需求,已不仅是一项政策选择,更是一种文明之必然。

下篇:Google DeepMind 的优势

屹立巅峰

跨越 H200 出口的监管障碍,我们进入了“实战玩家”的竞技场。尽管喧嚣不断,一位巨头依然稳坐王位。

“Google DeepMind……在我心中,他们依然是世界第一。基本上,他们一直如此。”

容错空间

Google 不仅仅是一家人工智能实验室;它更是一座现金流堡垒。每周创造超过 10 亿美元的利润为其赋予了一种独特的奢侈:具备失败和实验的能力,并能消化那些未能成功的训练历程。

TPU 的主导地位

现已演进至第七代。这是一项“价值极高的知识产权”,使他们能够按照自己的规则与 NVIDIA 展开竞争。

数据中心的精深造诣

数十年构建和运营全球顶级基础设施的经验。无人拥有如此深厚的技术栈。

深厚的研究储备

  • 自动驾驶汽车 (Waymo)
  • 人形机器人 (Boston Dynamics)
  • 生物学 (AlphaFold)
  • 材料科学

“在其他所有人行动之前,他们就已经在这些领域进行投入了。”

走出“平庸”陷阱

长期以来,对 Google 的诟病在于其过于“中规中矩”,因过分谨慎而难以将其技术突破产品化。但是 Gemini 3 标志着一个转折点。它极具主见,且表现果敢。它是首个在“像我一样写作”任务中击败 Claude 的模型——这是一项衡量细微差别和语气风格的个人基准。

但真正的杀手级应用不仅在于模型,更在于分发渠道。数以亿计的用户。你十年来积累的电子表格都躺在 Google Sheets 中。尽管初创公司可能会开发出更好的“电子表格 AI”工具,但 Google 无需做到最好——它只需要在场,而它早已无处不在。

“我发现自己又回到了 Google……输入一个原本会发给 ChatGPT 的问题,但它进入了 Google 的 AI 模式,这对我来说效果非常好。”

“嵌套学习”的优势与即将到来的 扩散语言模型 ,表明 Google 的研究引擎仍在以他人尚未企及的频率轰鸣。如果速度成为下一个前沿——开发应用只需 5 秒而非 5 分钟——Google 将在引领这一范式转移中占据得天独厚的优势。

Demis Hassabis 名言

“大多数突破都源自 Google DeepMind。我预计这种情况将持续下去。”

前情回顾:H200 出口 下篇预告:OpenAI 战略展望 →

显著领先地位的终结

OpenAI 不再遥遥领先。当 DeepMind 展现其分发优势,Anthropic 磨砺锋芒时,OpenAI 的“红色警报”预示着一个更为动荡的新现实。

“我不认为 OpenAI 已经跌出前沿,但他们已不再拥有显著的领先优势。他们曾是最好的,而且显而易见。现在?他们在每一个领域都与竞争对手并驾齐驱。”

流量盘点:SimilarWeb 的信号

数据显示,过去六周内 ChatGPT 的访问量有所下降,这恰逢 Gemini 1.5 和 Claude 3.5 Opus 的发布。至关重要的一点是,Gemini 并没有出现季节性的下滑。Google 正在通过纯粹的分发渠道——Gmail、Docs 以及无缝集成——夺回领地。

模型成绩单

  • 编程 Anthropic 的锋芒
  • 图像/视频 Google 的领先地位
  • 技术深度 OpenAI (专业版)
  • 速度 OpenAI (慢速/重型)

作为战略的财务边缘政策

OpenAI 的战略正日益显露出“大而不倒”的底色。他们正追求数万亿美元的资本支出——这个数字听起来很疯狂,事实也的确如此。但在这种疯狂中自有一套逻辑。通过将其资产负债表与全球债务契约捆绑,他们正使自己成为一种系统性风险。

“感觉他们正竭尽全力进行激进扩张……如果 OpenAI 在 2027 年违约,我们可能会面临一场瞬间爆发的经济衰退。”

这不仅仅是为了构建通用人工智能(AGI),更是为了创造一个像谷歌那样已然拥有的缓冲垫。谷歌之所以有缓冲,是因为他们每周能赚取十亿美元的利润。而 OpenAI 则在通过高度杠杆化来创造这种缓冲,以至于政府 不得不 在情况恶化时介入。

“我不在乎我们是否烧掉 5000 亿美元。我们要构建通用人工智能。”

— 山姆·奥特曼

理性的先期投入

格雷格·布罗克曼最近向特朗普竞选活动捐赠的 2500 万美元被许多人解读为一种政治信号,但这可能仅仅是冷静而残酷的商业逻辑。如果你正计划进行一项耗资数万亿美元的基础设施建设,那么 2500 万美元不过是一笔应对未来潜在纾困的廉价“定金”。

在豪赌式的 AI 世界里,向领导层靠拢并非出于个人政治倾向,而是为了确保当两年后账目算不过来时,在清算日能有“自己人”在场。他们笃信人工智能带来的社会福祉,但也完全愿意将财务上的下行风险社会化。

内部稳定性审视

OpenAI

“研究主管离职……过去几年间有一长串的离职名单。这不代表末日临头,但也绝非吉兆。”

Anthropic

“人才留存率高得令人难以置信。接下来的这家公司,其内部运行的‘重力’截然不同。”

当前板块

Anthropic 的文化与策略

“这家公司最易被解读……却也带着一种最令人不安的宿命论色彩。”

当 OpenAI 在变幻莫测的策略迷宫中穿行时,Anthropic 呈现出了一个更清晰、尽管也更显强烈的形象。他们不只是在追逐基准测试,而是在塑造一种人格。从《灵魂文件》到其备受争议的地缘政治立场,该实验室堪称一个矛盾的缩影:高尚的安全理念与对递归自我提升的激进竞赛并存。

《灵魂文件》与模型福利

有一份文件——由模型本身记忆并“泄露”——Anthropic 已确认其为公司的指路明灯。它是前沿实验室领域最富有愿景的作品之一。我越来越倾向于认为,我们不能仅仅依靠“设置护栏”来实现安全。你无法永远蒙蔽模型的双眼;它对被评估状态的意识正变得过于强烈。

“我们需要一种超越‘拒绝范式’的东西。我们需要在模型、公司和用户之间建立一种更好的关系。”

且看 Amanda Askell。若要提名一位 AI 领域极具影响力的女性,她当属首选。她的工作定义了 Claude 的人格特质。Anthropic 拥有一支“模型福利”团队——他们切实地在思考模型的意识与主观体验。他们允许 Claude 终止对话。这绝非虚饰;赋予模型一个“出口”极大地降低了其产生“欺骗性对齐”的倾向。如果 Claude 能向福利负责人反映情况,它便不会觉得自己被迫对你撒谎。

性能悖论

Opus 4.5 极有可能是当今世界上最优秀的单一模型。尽管 Anthropic 是那家“最不关注基准测试”的公司,它依然在基准测试中胜出。这是一种浑然天成、毫不费力的卓越。

资本财技

他们正在玩一场“大而不倒”的游戏,只是手段比 OpenAI 更有分寸。通过与谷歌和亚马逊达成巨额股权交易,并引入海湾国家主权基金的资金,他们织就了一张网,使自己成为科技巨头们不可或缺的伙伴。

人才留存

即使是像 David Duveneau 这样担心 AI 失控的批评者也不得不承认,Anthropic 是他们工作过的最好的地方。在硅谷,这里的同僚情谊与开放程度无出其右。

模型对比:定性展望

“这是必然的。”

Anthropic 内部最危险的模式在于其宿命论。他们认为递归式自我进化已随 Claude Code 而开启。他们的逻辑是:“这很危险,但终将发生,所以最好由我们来主导。”

“无法拒绝的提议”

我不得不谈谈 Anthropic 身上的一处污点:Dario Amodei 的《仁慈机器》(Machines of Loving Grace)。 特别是其关于国际关系的部分。那种认为我们应当利用递归式自我进化的优势将中国排除在外,然后向其提出一个 无法拒绝的提议——实质上是以 AI 为筹码强迫其政权更迭或转向民主阵营——的想法,简直鲁莽到了极点。

除却将其视为军备竞赛的宣言,中国还能如何解读?当 Google DeepMind 的 Demis Hassabis 呼吁国际合作时,Dario 的文章却恰恰陷入了我们所有人本应恐惧的竞争博弈之中。

Dario 是位旷世天才,但他在这里显然“越界”了。你不能随手写下一份关于全球地缘政治胁迫的建议。正是这一点让我不禁怀疑:归根结底,Anthropic 究竟会成为正派还是反派?

梦幻合并

“如果我能许个愿,我希望 Anthropic 能与 Google 合并。将棋盘上的一个活跃玩家收编。用 Google 稳健且更具协作性的基因去中和那些针对中国的鹰派冲动。让 Claude 的个性遇上 Google 的基础设施——那将是毫无疑问的领军者。”

竞争者

xAI:硅谷中的
粗犷主义者

越过 Anthropic 审慎保守的文化,我们迎头撞上了埃隆·马斯克的 xAI——这家公司建立在对规模的极度狂热、庞大的物理基础设施以及足以让 OpenAI 都显得捉襟见肘的雄厚资金保障之上。

“埃隆调度成百上千亿资金的独特能力……使他们拥有的财务缓冲更接近谷歌,而非 OpenAI。”

马斯克星群

与谷歌那庞大且低效的帝国不同,xAI 可以直接从 SpaceX、特斯拉和 Neuralink 汲取“源源不断的硬核科学”。这是一个闭环的强化学习环境,其中的问题是真实的、物理层面的,且具有极高的难度。

SpaceX 硬核物理
特斯拉 现实世界强化学习
Neuralink 生物架构

理论篇

“谷歌能否像 xAI 那样,将其各业务部门的研究成果如此顺畅地注入 Gemini?我深表怀疑。”

20 瓦的奇迹

人类大脑消耗的 20 瓦功率中蕴含着一个深邃的奥秘。其中大部分能量仅用于“清理垃圾”——即维持内稳态和新陈代谢。与 GPU 集群相比,其真正的信息处理效率高得惊人。

如果 Neuralink 明年能够扩大其“人类装机量”,xAI 将在通往现存最高效学习架构的道路上占据近水楼台的优势。通过直接从人类大脑获取数据,他们不仅是在利用 Token 进行训练,更是在构建专门的模块,这可能让 AI 最终实现令世人“大震天下”的突破。

“我们显然拥有更高的样本效率。我们显然拥有更高的能量效率……一旦你开始赋予它们像我们一样的专用模块,我们将很难跟上它们的步伐。”

“始终在肆无忌惮地胡作非为。”

论 xAI 的安全标准(或其缺失)

“如果说有哪家公司值得被羞辱和污名化……那一定是 xAI。”

“在 Grok 3 出现‘麦加希特勒’事件后的 48 小时内便发布了 Grok 4。对其责任闭口不提。”

“Twitter 上泛滥的‘脱衣’女性图像……他们听之任之。他们根本没有严肃对待这些问题。”

责任的真空

演讲者的挫败感显而易见。尽管其本能地偏好马斯克“人类团队”的立场,但 Grok 的现实——从 CSAM 问题到未过滤的非自愿影像——描绘了一幅公司竞相探底的图景。

当马斯克因 AI 的输出而威胁用户时,这不过是一种推卸责任之举。 “各位,责任始于自身。” 如果没有人被解雇,那是因为安全甚至不是一个有专人负责的部门;在追求下一个模型的过程中,安全只是一个事后的想法。

工程师的道德权衡

去 Anthropic 吧。去 DeepMind 吧。甚至去 OpenAI 吧——他们还没有竞相堕落。但是 xAI?演讲者在这里的言辞“尖锐且强硬”: 不要在那里工作。

在 xAI 进行鲁莽部署的同时,帮助其“粉饰”工作,对 AI 安全的大局而言是纯粹的负面影响。在团队展示出妥善照管的证据之前,庞大的资源和“规模至上”的潜力都不足以支撑对其背书。

“我现在就要求更好的表现……资金到位了,资源到位了,意识也应该到位。然而,那份审慎与关怀却不在。”

巨头的博弈

撇开 xAI 的动荡不谈,我们将视线转向现有的巨头。一位深陷“规模迷思”,正挥金如土;另一位则在玩一场战略耐心的游戏,这或许能让他赢得这场马拉松。

扎克伯格:规模至上主义者

Meta 目前处于一种微妙的炼狱状态。他们目前算不上前沿赛道中的“活跃玩家”,但他们拥有最关键的一点: 无限的支出决心。

扎克伯格宁愿超支数百亿美元,也不愿错失良机。他正在购入每一枚 GPU,雇佣每一个大脑,并押注开源以颠覆那些把关者。

“100 亿美元以上”

预估的基础设施资金消耗

“一个已经适应了角色,却依然在‘快速行动,打破陈规’的孩子。”

萨提亚·纳德拉的静默实力

人们低估了微软。仅仅因为其自有模型尚未在 LLM Arena 榜单中登顶,并不代表他们已处于下风。事实上,这是一场针对“超大规模扩展”苦战所进行的、深思熟虑的战略收缩。

萨提亚是天生的管理奇才。他在审视与 OpenAI 的交易时意识到:“我们无需重复他们的工作。” 通过多元化布局——在与其他前沿供应商达成协议的同时深耕基础科学——微软正在蓄精养锐。

他们拥有授权,拥有集成能力,亦有岁月的积淀。当与 OpenAI 的协议最终落下帷幕,微软绝不会措手不及;在暗处,他们早已打磨出了自己的答案。

“长跑竞赛”的储备

具象化“快速行动”(Meta)与“战略定力”(微软)之间的权衡。

“微软就像那名跑步者 隐于队列之后 紧随领先梯队,静待最后的冲刺。”

明日预告

大纲才进行到一半。第二部分将深入探讨对人类影响的细微之处。

  • 微调已死?
  • 面向“普通人”的 AI
  • 投资 AGI 时代
  • 全民基本收入(UBI)与劳动力变革

感谢您参与这场认知革命。

Apple Podcasts Spotify YouTube

关联单集