硅谷101

新年直播2:特斯拉FSD以及自动驾驶的商业战争

2026/1/1539:22

特斯拉 FSD V14:
从“玩具”到“直觉”的质变

“这不仅仅是版本的迭代,而是舆论和体验的全面倒戈。”

刚跨入2024年,自动驾驶圈就被一条新闻炸开了锅:有车主开着特斯拉 FSD 实现了从美国西海岸到东海岸的横跨,全程接近**零接管**。虽然听起来像个神话,但身在硅谷的我们,确实感受到了某种“奇点”的临近。

老余和大卫刚刚在湾区深度体验了最新的测试版本。过去,大家讨论 FSD 是在聊“它为什么不买”、“用户为什么不用”;而现在,风向变了。

老余

“我刚回美国就更新了 V12.4(非常接近 V14 的逻辑)。说实话,以前我觉得 FSD 变道我会害怕,安全性需求总让我不得不盯着它。但现在,那种‘类人’的丝滑感出来了。这种转变非常可怕——一旦你不需要一直盯着它,你的依赖性会呈指数级增长。”

大卫

“没错。圣诞节前我做了一个实验,从家去健身房,同时开着 Tesla FSD 和 Waymo。结果呢?Waymo 为了绕开一个复杂的路口,多花了我 18 美金绕了一大圈。而 Tesla 像个老司机一样,该切入切入,该博弈博弈,直接把我送到了门口。”

18 $

大卫的一次 Waymo 绕路体验成本,仅仅因为系统无法处理一个左转逻辑。

旧金山大拥堵:规则驱动的尴尬

前两周,旧金山发生了大规模拥堵,原因竟是几辆 Waymo 面对失灵的红绿灯彻底“傻掉”了。在基于规则(Rule-based)的系统里,没有红绿灯就意味着没有行使权,它们只能原地待命。

端到端的魅力:如何避开“水坑”?

为什么端到端(End-to-End)模型比特斯拉以前的系统更聪明?老余提到了一个非常经典的例子:**路面上的水坑。**

如果你用 Rule-based(基于规则)去写代码,你得定义什么是水,深度是多少,对面有没有车,是否会溅到行人……这几乎是无穷无尽的。但端到端模型不学这些复杂的规则,它直接学习人的驾驶行为。

“人看到深水坑会减速或绕行,系统在看了几百万次人的操作后,它就掌握了这种‘常识’,即使它并不知道‘水坑’这个名词的定义。”

“所谓的‘算法领先’已经不再是代码量的堆砌,
而是看谁能让 AI 拥有那种
‘只可意会,不可言传’的驾驶直觉。”

商业运营成本对比 (预测)

Waymo 依然面临着昂贵的硬件和运营支出(包括那些坐在充电站里的监测员),而特斯拉正在通过纯视觉方案极力压低每一英里的成本。

Annotation Card

什么是 V14 的“端到端”?

传统的自动驾驶将感知、预测、规划拆分为不同模块。而“端到端”则是将图像输入直接通过神经网络输出为驾驶指令(转向、加速、制动)。这种方式消除了人为定义的逻辑瓶颈,但也带来了“黑盒”问题:你很难向监管机构解释,它为什么在这一秒选择了左转。

既然端到端模型展现出了如此惊人的“灵性”,那它是不是就彻底无敌了?
接下来,我们要深入技术底层:Waymo 的规则派 vs 特斯拉的端到端派,到底谁才是自动驾驶的终局?

路线之争

“刚才我们聊了 FSD V14 的惊艳表现,但这背后其实藏着一个让整个行业撕裂的问题:到底该用人类的‘规则’教车走路,还是让它像孩子一样在数据中‘自学’?”

Waymo 的“完美”囚徒

Waymo 走的是一条极其稳健的路:感知、预测、规划,每一层都像严密的法律条文。但也正因如此,它面对长尾场景(Corner Cases)时,就像个拿着说明书找答案的优等生,一旦说明书没写,它就“宕机”了。

VS

特斯拉的“直觉”进化

特斯拉抛弃了那些烦人的 IF-THEN 语句。FSD V12 之后,它只有端到端。它不理解什么是“红灯”,它只是看了一万遍人类在红灯前刹车,于是它学会了这种“感觉”。这是一种从逻辑到神经科学的范式飞跃。

端到端的暴力美学

说实话,很多人对“端到端”有误解。这不只是技术的迭代,这是算力的暴力拆解。当 Waymo 还在雇佣数千名工程师手写代码来处理“如何绕过路边违停车辆”时,特斯拉的系统正盯着数百万车主的真实驾驶数据。

“规则是有上限的,而数据没有。人类程序员能想到的场景只有几万个,但现实世界的混沌是无限的。”

这种系统协同的优势在于:它消除了模块之间的“信息损耗”。在旧架构里,感知层的一个小误差,到了规划层可能就会变成一次致命的急刹。而在端到端架构中,神经网络自己会处理这种噪声,它追求的是最终结果的平滑。

算力:新时代的石油

如果你没有 10,000 片 H100,你甚至没资格谈论端到端。

仿真不再是玩具

很多人问,特斯拉哪来那么多极端数据?答案是 **影子模式** 和 **大规模仿真**。他们能把现实中遇到的一个复杂路口,在虚拟世界里生成出一万种变体(下雨、大雾、有行人闯红灯),让 AI 反复练习。

Annotation

“影子模式”:FSD 在后台静默运行,比对人类司机的操作与它的决策差异,从而不断学习。

“这不是工程师的胜利,
这是第一性原理的胜利。”

— 论及领导力与团队信念对技术路线的影响

既然端到端如此强大,为什么 Waymo 这种巨头不转型?或者说,他们转得动吗?

下一章:硬件护城河与投资逻辑

硬件护城河

从算法的灵动,到硅片的厚重

刚才我们聊透了人才、勇气和那些看不见的软件仿真,但聊自动驾驶如果不聊硬件,就像是谈论灵魂却忽略了躯体。特斯拉为什么一定要自研 FSD 芯片?Waymo 为什么要在传感器阵列上堆料?

“垂直整合不是为了省钱,而是为了‘定义’。当你的软件跑在别人的通用芯片上时,你永远在为别人的平庸买单。”

自研芯片:软硬协同的终极形态

FSD 芯片的设计完全是为了神经网络的张量运算。这种“投石问路”的精准度,是任何通用 GPU 无法提供的。每一瓦功耗,都必须转化成每一帧的决策。

我会投 Waymo 吗?

“作为投资者,Waymo 让人又爱又恨。它的‘昂贵’是它的护城河,也是它的枷锁。但如果你问我谁最先在无人区真正实现‘人类级别’的稳健,那叠最厚甲的 Waymo 依然是那个最让人放心的标杆。”

Investor Hot Take

观众 QA:那些尖锐的真相

观众:FSD 这种纯视觉方案,真的能解决极端安全性需求吗?

安全性不是靠“堆硬件”解决的,而是靠“概率的收敛”。纯视觉模仿的是人类,但它的反应速度是人类的百倍。当数据量突破临界点,长尾场景(Corner Cases)会被逐一击碎。安全,最终是关于你见过多少种“死法”。

观众:今年我们会看到 L2 到 L4 的跨越吗?

别被营销术语骗了。从 L2 到 L4 不是简单的“升级”,是“交权”。今年不会是跳跃的一年,而是“体验连续性”爆发的一年。你会发现你在高速上、城区里接管的次数越来越少,直到有一天你突然意识到:我已经半小时没碰方向盘了。

演进的时间轴:我们的坐标

过去 硬件定义功能 (L2 辅助)
现在 软件驱动体验 (端到端爆发)
未来 系统接管责任 (真正的无人驾驶)

编者按: 讨论中提到的“软硬协同”,本质上是在解决昂贵的计算资源与极端的实时性需求之间的矛盾。这也是为什么在这个赛道上,只有少数几家公司能玩得起这场数字与硅片的豪赌。

当所有的硬件到位,所有的 QA 都有了答案,剩下的,就是时间的验证与最后的结论了。

关联单集