No Priors: Artificial Intelligence | Technology | Startups

Sunday Robotics：对话创始人 Tony Zhao & Cheng Chi，开启家庭机器人革命的“GPT时刻”

2025/11/19

接续前文……

“ChatGPT 时刻”
之于物理现实

Sundae 联合创始人 Tony Zhao 与 Cheng Chi 登上舞台，其愿景远超单一的原型机。我们探讨的不仅是机器人，更是机器学会如何在我们的世界中生存的一种根本性变革。

宏图远志

“如果机器人价格低廉、安全且全能，每个人都会渴望拥有一台。我们预见的未来是，在十年内，会有超过 1,000,000,000 台此类机器人走进千家万户。”

Tony Zhao，联合创始人

我们现处于何处？

我们正处于技术突破与产品变革之间的交汇期。

第一步：技术

“GPT” 时刻

秘方已备，算法已初现生机。

● 您在此处

规模化阶段

收集数据以证明该方案能像大语言模型（LLM）那样实现规模化扩张。

第三步：产品

“ChatGPT” 时刻

易用的消费级产品 (Memo) 应运而生。

突破循环

传统机器人学依赖于脆弱的“感知 → 规划 → 行动”循环。而现代 AI 机器人则利用 模仿学习 以实现跨任务的行为泛化。

规模化效率

泛化能力与投入成本

核心秘籍

扩散策略 (Diffusion Policy)

机器人学曾一度追求完美。如果研究人员在数据采集过程中的动作不够精确，模型便会宣告失败。

扩散策略 改变了游戏规则。它允许机器人从“杂乱”的数据中学习——捕捉多种行为模式。这意味着未经训练的人员现在也能教授机器人，从而解锁了构建基础模型所需的数据规模。

“我们可以让多人，甚至是未经训练的人员来收集数据，而结果依然出色。这真正解锁了可扩展的训练模式。” — Cheng Chi

下章预告

我们已经确立了愿景与软件引擎（扩散策略）。但软件需要躯体。我们如何将这一策略转化为物理行动？接下来：ACT 与 ALOHA 的角色 →

从算法到物理实体的演进

虽然扩散策略（Diffusion Policy）提供了算法大脑，但物理瓶颈依然存在。如何在没有 VR 远程操作那种令人眩晕的延迟的情况下，教会机器人灵巧的动作？

ALOHA 与 ACT：远程操作的游戏化

在 ALOHA 诞生前，采集机器人数据如同在糖浆中穿行——VR 设备的延迟让操作者与机器人的手部动作产生了脱节。

解决方案：一套低延迟的双臂系统，操作感与其说是在做实验室实验，不如说是在玩电子游戏。这种即时反馈闭环让采集真正灵巧的数据成为可能。

为何这至关重要： 一旦数据质量得到提升，团队终于可以摒弃简单的 MLP 架构，转而拥抱 Transformers。事实证明，深度学习在机器人领域的折戟并非由于架构问题，而是因为高保真数据的匮乏。

概念：动作分块 (Action Chunking)

人类的思考并不以毫秒为单位。我们感知、规划路径，然后行动。

✕ 每毫秒预测单个动作（动作抖动）
→ 预测完整轨迹（动作平滑）

结果：产生类似于生物运动的连贯、流畅的动作。

UMI 登场：走进荒野的数据

通用操作接口 (Universal Manipulation Interface)

机器人之所以在现实世界表现不佳，是因为它们仅在实验室里受训。为解决此问题，团队彻底摆脱了机器人的束缚。

利用 3D 打印夹爪和 GoPro，他们在餐厅、食堂和户外收集数据。无需机械臂——仅凭纯粹的观察与动作数据。

阳光下的教训

机器人在除阳光直射外的所有场景下都表现完美。为何？因为数据是在长达两周的雨天采集的。分布匹配是不可逾越的底线。

图表：数据采集范式的转变。

“也许我们该开家公司，它的表现真的太出色了。”

他们仅凭 20 万美元的学术预算，便通过攻克数据瓶颈，在性能上超越了那些耗资巨大的方案。这项技术已蓄势待发，准备走出斯坦福的实验室。

下期预告：Sunday 的诞生

弥合鸿沟

我们已经探讨了 ACT、ALOHA 和 UMI 等赋能机器进行学习的算法。但算法需要载体。从斯坦福公寓里的一张书桌，到初具规模的团队，使命已从纯粹的学术研究转向了构建 Sunday 的复杂现实：这是一款并非为工厂、而是为您的客厅打造的机器人。 Sunday 反“终结者”。

为什么家庭机器人的未来看起来不像科幻片里的金属铬，而更像皮克斯动画里的角色。

Beta 版问世年份形态追随亲和

在设计一款如影随形的机器——某种你在每个清晨冲泡咖啡时都会见到的物件——时，工业美学便不再奏效。Sunday 的设计哲学摒弃了工厂机器人那种“精确、僵硬、盲目”的特质。

“它应该有一张可爱的脸……我们不希望是由一个‘终结者’在为你洗碗，我们希望这个机器人给人的感觉就像是从卡通电影里走出来的一样。”

三指论点：

为何要完美复刻人类的手掌？那既昂贵且往往并无必要。通过将手指整合为三指抓取器，Sunday 仅需极低的成本，便能实现 90% 的人类效用（如抓取把手、打开洗碗机）。精准悖论

传统机器人虽然“盲目”，但在机械构造上趋于完美。Sunday 则完全反其道而行之。

→

硬件： 廉价、顺应、甚至略显“笨拙”的执行器。天生安全，但缺乏精度。→
软件： 高保真 AI 视觉。结果

“用眼睛纠正身体的错误。”

幕后的打磨：手套的迭代

数据质量护城河

Data Quality Moat

复制看似简单，但准入门槛在于硬件与数据流水线的整合。“Sunday 手套”（数据采集设备）经过了大规模迭代，才得以经受住 500 多名操作人员各种奇思妙想的考验。

迈向 2026 之路

现状

内部原型设计与“细节打磨”

2026

Beta 测试项目启动

真实的家庭。真实的孩子。真实的混乱。

下一步

500 人规模阵列

机器人已就绪。使命已明确。现在，我们该如何为其喂送足够的高质量数据，使其变得聪明？ →

从硬件到心智

在确立了物理哲学和交付时间表之后，问题依然存在：Sunday 该如何教导机器理解现实世界的混沌？答案在于海量的人类运动数据。

这 1,000 万个
轨迹大脑

数据规模

学术界往往依赖于孤立的“拿起杯子”任务，而 Sunday 已经在实际场景中收集了近 1,000 万个长程轨迹——涵盖了同时进行的行走、导航和操作。

10M+

方法论的大分歧

并非所有的机器人大脑都以相同的方式构建。Sunday 团队发现了一个反直觉的事实：“手套”形态（一种手持模仿设备）产生的更优质数据，效果优于僵硬的远程操纵装置。

“手套鼓励人们进行更自然的运动……从而产生更智能的行为。”

这导致了机器人训练中的一种分化：

— 模仿学习（手套）：在精细操作方面表现更优。捕捉手部抓取软杯的细微差别，通过演示来实现，要比通过模拟更容易。
— 强化学习 (RL)：在移动能力方面表现更优。行走涉及刚体物理（脚着地），这很容易模拟，但其反应性行为却很难通过手动编码实现。

模拟悖论

为什么 Sunday 对足部和手部使用不同的大脑

*操控需要对流体动力学和形变进行建模（仿真之难），而移动则需要复杂的反应性平衡（行为之难）。

隐藏的工程成本

规模揭示了脆弱性。当轨迹达到一千万条时，人工核查数据已无可能。Sunday 必须构建自动化校准系统，在手套传感器发生漂移并污染“集体智慧”之前将其及时发现。

“你不需要人类盯着数据也能察觉出问题。”

下篇预告

随着数据流水线的稳固，我们将目光转向现实的硬性限制：技术挑战。

弥合差距

在确立了 Sunday 训练数据的宏大规模后，话题转向了执行的熔炉。数据是燃料，但引擎——即“训练配方”和物理硬件——现在必须经受住现实压力的考验。

硬件是难关.

为什么创办机器人公司需要避开“花哨的研究”，转而追求残酷的反馈循环。

状态：原型阶段

挑战 01

规模化配方

该领域刚刚进入海量数据可用的阶段。挑战已不再是获取数据，而是定义确切的“训练配方”，以从中提炼出鲁棒的行为特征。

“我们要避免进行无法规模化的研究。拒绝花哨、虚浮的想法。我们首要关注基础设施。”

挑战 02

硬件摩擦

当学习团队推进软件性能时，硬件往往会损坏。这就是为什么“全栈”路径是不容置疑的。

机械团队构建硬件。
学习团队挑战性能极限。
硬件失效 -> 立即进行内部迭代。

通往普及之路

2026：Beta 测试计划

入选用户将在家中迎来真实的机器人。目标：理解人机交互，并界定哪些家务劳动真正具有价值。

2027 – 2028：商业化发布

视 Beta 测试结果而定。对可靠性与成本执行严苛标准。“这绝非十年后的遥不可及。”

“我确实厌恶洗碗。我们未来的世界将更加洁净。家庭劳动的边际成本将趋于零。”

规模经济

现有原型机与目标消费价格之比

洞察： 执行器已经很便宜了。目前的成本驱动因素是小批量的外壳（CNC/喷漆）。规模化注塑成型将使材料成本降至1万美元以下。

接下来的内容

从理论到实践

为何过去的演示失败了 & Sunday 的新路径 →

继续从技术瓶颈向可见实证迈进的旅程……

能力幻象：
为何大多数机器人演示都在欺骗你。

“

做到零假设。
无先验。

当你看到机器人把杯子递给一个人时，人类本能会填补其间的逻辑空白。我们假设它可以把任何杯子递给任何一个人。通常情况下，它只能将那个特定的物体移动到那个特定的坐标。

复杂度阶梯

在一系列动作中，失败的概率会随着每次交互而叠加。

Sunday 的“现实世界”三位一体

数据驱动的验证

1. 杂乱的桌面（长时程任务）

清理桌子并非单一任务，而是一场移动操作的交响乐。从高处（餐桌）到低处（洗碗机），处理易碎玻璃，并处置厨余垃圾。

单手拿起两只酒杯（需要精准的力度控制）。
高风险：握力过大，杯子碎裂；推力失当，瞬时崩裂。

2. 极致灵巧

折叠袜子和操作咖啡机不仅需要视觉，更需要触觉。

“当你远程操作时，你的手是麻木的。你可能会施加无限大的力却浑然不知。”

Sunday 的手套捕捉到了 力封闭——处理柔软物品所需的触觉反馈闭环。

3. AirBnB 测试（零样本）

实用性的终极测试。机器人被投放进一个随机的 AirBnB 房间，且 零训练数据 来自那个特定的家。

挑战晶亮的银器，玻璃台面，奇幻的光影。

赋能之源 500多名多元化的数据采集员，提供海量的先验数据。

下一章节

谁在构建未来？
深入洞察 Sunday 的人才选拔准则 →

延续篇章

在跨越了早期演示的挫败并成功展示了 Sunday 现有的实力之后，对话转向了驱动这一进步的核心引擎：人才。构建一个集硬件、软件与人工智能于一体的系统，需要一种独特而罕见的工程师。

全栈
机器人专家

重新定义“栈”的内涵

Sunday 寻找的并非各司其职的专才。他们正在定义一种全新的原型：全栈机器人专家。

在传统技术领域，“全栈”意味着从数据库到前端。而在机器人领域，技术栈是物理存在的。为了优化系统，你不能被局限在方寸工位之间，必须跨越以下领域的边界：

机械工程
电气系统
代码与逻辑
数据科学

多学科融合

“我们将软件工程师培养成机器人专家。”

”

“我意识到……瓶颈实际上在于机器人将如何移动。那是编程。接着我意识到还有机器学习……对我来说，逐渐扩展我的技能集是很自然的，因为我始终渴望亲手打造机器人。”

— 演讲者 2，谈机器人专家的演进

为何加入？

“凡是你对机器人、消费产品和机器学习所能产生的一切想象，都能在这里找到。”

硬件 • 软件 • 体验

继续收听

意犹未尽？欢迎订阅 No Priors 以获取人工智能与机器人前沿领域的每周更新。

Apple Podcasts Spotify YouTube

接下来结语 →

“ChatGPT 时刻” 之于物理现实