Sunday Robotics:对话创始人 Tony Zhao & Cheng Chi,开启家庭机器人革命的“GPT时刻”
接续前文……
“ChatGPT 时刻”
之于物理现实
Sundae 联合创始人 Tony Zhao 与 Cheng Chi 登上舞台,其愿景远超单一的原型机。我们探讨的不仅是机器人,更是机器学会如何在我们的世界中生存的一种根本性变革。
“如果机器人价格低廉、安全且全能,每个人都会渴望拥有一台。我们预见的未来是,在十年内,会有超过 1,000,000,000 台此类机器人走进千家万户。”
我们现处于何处?
我们正处于技术突破与产品变革之间的交汇期。
“GPT” 时刻
秘方已备,算法已初现生机。
规模化阶段
收集数据以证明该方案能像大语言模型(LLM)那样实现规模化扩张。
“ChatGPT” 时刻
易用的消费级产品 (Memo) 应运而生。
突破循环
传统机器人学依赖于脆弱的“感知 → 规划 → 行动”循环。而现代 AI 机器人则利用 模仿学习 以实现跨任务的行为泛化。
核心秘籍
扩散策略 (Diffusion Policy)
机器人学曾一度追求完美。如果研究人员在数据采集过程中的动作不够 精确,模型便会宣告失败。
扩散策略 改变了游戏规则。它允许机器人从“杂乱”的数据中学习——捕捉多种行为模式。这意味着未经训练的人员现在也能教授机器人,从而解锁了构建基础模型所需的数据规模。
“我们可以让多人,甚至是未经训练的人员来收集数据,而结果依然出色。这真正解锁了可扩展的训练模式。” — Cheng Chi
下章预告
我们已经确立了愿景与软件引擎(扩散策略)。但软件需要躯体。我们如何将这一策略转化为物理行动? 接下来:ACT 与 ALOHA 的角色 →
从算法到物理实体的演进
虽然扩散策略(Diffusion Policy)提供了算法大脑,但物理瓶颈依然存在。如何在没有 VR 远程操作那种令人眩晕的延迟的情况下,教会机器人灵巧的动作?
ALOHA 与 ACT:远程操作的游戏化
在 ALOHA 诞生前,采集机器人数据如同在糖浆中穿行——VR 设备的延迟让操作者与机器人的手部动作产生了脱节。
解决方案: 一套低延迟的双臂系统,操作感与其说是在做实验室实验,不如说是在玩电子游戏。这种即时反馈闭环让采集真正灵巧的数据成为可能。
为何这至关重要: 一旦数据质量得到提升,团队终于可以摒弃简单的 MLP 架构,转而拥抱 Transformers。事实证明,深度学习在机器人领域的折戟并非由于架构问题,而是因为高保真数据的匮乏。
概念:动作分块 (Action Chunking)
人类的思考并不以毫秒为单位。我们感知、规划路径,然后行动。
- ✕ 每毫秒预测单个动作(动作抖动)
- → 预测完整轨迹(动作平滑)
结果:产生类似于生物运动的连贯、流畅的动作。
UMI 登场:走进荒野的数据
通用操作接口 (Universal Manipulation Interface)
机器人之所以在现实世界表现不佳,是因为它们仅在实验室里受训。为解决此问题,团队彻底摆脱了机器人的束缚。
利用 3D 打印夹爪和 GoPro,他们在餐厅、食堂和户外收集数据。无需机械臂——仅凭纯粹的观察与动作数据。
阳光下的教训
机器人在除阳光直射外的所有场景下都表现完美。为何?因为数据是在长达两周的雨天采集的。分布匹配是不可逾越的底线。
图表:数据采集范式的转变。
“也许我们该开家公司,它的表现真的太出色了。”
他们仅凭 20 万美元的学术预算,便通过攻克数据瓶颈,在性能上超越了那些耗资巨大的方案。这项技术已蓄势待发,准备走出斯坦福的实验室。
弥合鸿沟
我们已经探讨了 ACT、ALOHA 和 UMI 等赋能机器进行学习的算法。但算法需要载体。从斯坦福公寓里的一张书桌,到初具规模的团队,使命已从纯粹的学术研究转向了构建 Sunday 的复杂现实:这是一款并非为工厂、而是为您的客厅打造的机器人。 Sunday 反“终结者”。
为什么家庭机器人的未来看起来不像科幻片里的金属铬,而更像皮克斯动画里的角色。
26
在设计一款如影随形的机器——某种你在每个清晨冲泡咖啡时都会见到的物件——时,工业美学便不再奏效。Sunday 的设计哲学摒弃了工厂机器人那种“精确、僵硬、盲目”的特质。
“它应该有一张可爱的脸……我们不希望是由一个‘终结者’在为你洗碗,我们希望这个机器人给人的感觉就像是从卡通电影里走出来的一样。”
三指论点:
为何要完美复刻人类的手掌?那既昂贵且往往并无必要。通过将手指整合为三指抓取器,Sunday 仅需极低的成本,便能实现 90% 的人类效用(如抓取把手、打开洗碗机)。 精准悖论
传统机器人虽然“盲目”,但在机械构造上趋于完美。Sunday 则完全反其道而行之。
→
- 硬件: 廉价、顺应、甚至略显“笨拙”的执行器。天生安全,但缺乏精度。→
- 软件: 高保真 AI 视觉。结果
“用眼睛纠正身体的错误。”
幕后的打磨:手套的迭代
数据质量护城河
Data Quality Moat复制看似简单,但准入门槛在于硬件与数据流水线的整合。“Sunday 手套”(数据采集设备)经过了大规模迭代,才得以经受住 500 多名操作人员各种奇思妙想的考验。
迈向 2026 之路
现状
内部原型设计与“细节打磨”
2026
Beta 测试项目启动
真实的家庭。真实的孩子。真实的混乱。
500 人规模阵列
机器人已就绪。使命已明确。现在,我们该如何为其喂送足够的高质量数据,使其变得聪明? →
从硬件到心智
在确立了物理哲学和交付时间表之后,问题依然存在:Sunday 该如何教导机器理解现实世界的混沌?答案在于海量的人类运动数据。
这 1,000 万个
轨迹大脑
数据规模
学术界往往依赖于孤立的“拿起杯子”任务,而 Sunday 已经在实际场景中收集了近 1,000 万个长程轨迹——涵盖了同时进行的行走、导航和操作。
方法论的大分歧
并非所有的机器人大脑都以相同的方式构建。Sunday 团队发现了一个反直觉的事实:“手套”形态(一种手持模仿设备)产生的更优质数据,效果优于僵硬的远程操纵装置。
“手套鼓励人们进行更自然的运动……从而产生更智能的行为。”
这导致了机器人训练中的一种分化:
- — 模仿学习(手套):在精细操作方面表现更优。捕捉手部抓取软杯的细微差别,通过演示来实现,要比通过模拟更容易。
- — 强化学习 (RL):在移动能力方面表现更优。行走涉及刚体物理(脚着地),这很容易模拟,但其反应性行为却很难通过手动编码实现。
模拟悖论
为什么 Sunday 对足部和手部使用不同的大脑*操控需要对流体动力学和形变进行建模(仿真之难),而移动则需要复杂的反应性平衡(行为之难)。
隐藏的工程成本
规模揭示了脆弱性。当轨迹达到一千万条时,人工核查数据已无可能。Sunday 必须构建自动化校准系统,在手套传感器发生漂移并污染“集体智慧”之前将其及时发现。
“你不需要人类盯着数据也能察觉出问题。”
下篇预告
随着数据流水线的稳固,我们将目光转向现实的硬性限制:技术挑战。
弥合差距
在确立了 Sunday 训练数据的宏大规模后,话题转向了执行的熔炉。数据是燃料,但引擎——即“训练配方”和物理硬件——现在必须经受住现实压力的考验。
硬件是难关.
为什么创办机器人公司需要避开“花哨的研究”,转而追求残酷的反馈循环。
挑战 01
规模化配方
该领域刚刚进入海量数据可用的阶段。挑战已不再是获取数据,而是定义确切的“训练配方”,以从中提炼出鲁棒的行为特征。
“我们要避免进行无法规模化的研究。拒绝花哨、虚浮的想法。我们首要关注基础设施。”
挑战 02
硬件摩擦
当学习团队推进软件性能时,硬件往往会损坏。这就是为什么“全栈”路径是不容置疑的。
- 机械团队构建硬件。
- 学习团队挑战性能极限。
- 硬件失效 -> 立即进行内部迭代。
通往普及之路
2026:Beta 测试计划
入选用户将在家中迎来真实的机器人。目标:理解人机交互,并界定哪些家务劳动真正具有价值。
2027 – 2028:商业化发布
视 Beta 测试结果而定。对可靠性与成本执行严苛标准。“这绝非十年后的遥不可及。”
“我确实厌恶洗碗。我们未来的世界将更加洁净。家庭劳动的边际成本将趋于零。”
规模经济
现有原型机与目标消费价格之比
洞察: 执行器已经很便宜了。目前的成本驱动因素是小批量的外壳(CNC/喷漆)。规模化注塑成型将使材料成本降至1万美元以下。
从理论到实践
为何过去的演示失败了 & Sunday 的新路径 →
继续从技术瓶颈向可见实证迈进的旅程……
能力幻象:
为何大多数机器人演示都在欺骗你。
做到 零假设。
无先验。
当你看到机器人把杯子递给一个人时,人类本能会填补其间的逻辑空白。我们假设它可以把 任何 杯子递给 任何 一个人。通常情况下,它只能将那个特定的物体移动到那个特定的坐标。
复杂度阶梯
在一系列动作中,失败的概率会随着每次交互而叠加。
Sunday 的“现实世界”三位一体
数据驱动的验证1. 杂乱的桌面(长时程任务)
清理桌子并非单一任务,而是一场移动操作的交响乐。从高处(餐桌)到低处(洗碗机),处理易碎玻璃,并处置厨余垃圾。
- 单手拿起两只酒杯(需要精准的力度控制)。
- 高风险:握力过大,杯子碎裂;推力失当,瞬时崩裂。
2. 极致灵巧
折叠袜子和操作咖啡机不仅需要视觉,更需要触觉。
“当你远程操作时,你的手是麻木的。你可能会施加无限大的力却浑然不知。”
Sunday 的手套捕捉到了 力封闭——处理柔软物品所需的触觉反馈闭环。
3. AirBnB 测试(零样本)
实用性的终极测试。机器人被投放进一个随机的 AirBnB 房间,且 零训练数据 来自那个特定的家。
延续篇章
在跨越了早期演示的挫败并成功展示了 Sunday 现有的实力之后,对话转向了驱动这一进步的核心引擎:人才。构建一个集硬件、软件与人工智能于一体的系统,需要一种独特而罕见的工程师。
全栈
机器人专家
重新定义“栈”的内涵
Sunday 寻找的并非各司其职的专才。他们正在定义一种全新的原型:全栈机器人专家。
在传统技术领域,“全栈”意味着从数据库到前端。而在机器人领域,技术栈是物理存在的。为了优化系统,你不能被局限在方寸工位之间,必须跨越以下领域的边界:
- 机械工程
- 电气系统
- 代码与逻辑
- 数据科学
多学科融合
“我们将软件工程师培养成机器人专家。”
“我意识到……瓶颈实际上在于机器人将如何移动。那是编程。接着我意识到还有机器学习……对我来说,逐渐扩展我的技能集是很自然的,因为我始终渴望亲手打造机器人。”— 演讲者 2,谈机器人专家的演进
为何加入?
“凡是你对机器人、消费产品和机器学习所能产生的一切想象,都能在这里找到。”
继续收听
意犹未尽?欢迎订阅 No Priors 以获取人工智能与机器人前沿领域的每周更新。