No Priors: Artificial Intelligence | Technology | Startups

Sunday Robotics:对话创始人 Tony Zhao & Cheng Chi,开启家庭机器人革命的“GPT时刻”

2025/11/19

接续前文……

“ChatGPT 时刻”
之于物理现实

Sundae 联合创始人 Tony Zhao 与 Cheng Chi 登上舞台,其愿景远超单一的原型机。我们探讨的不仅是机器人,更是机器学会如何在我们的世界中生存的一种根本性变革。

宏图远志
“如果机器人价格低廉、安全且全能,每个人都会渴望拥有一台。我们预见的未来是,在十年内,会有超过 1,000,000,000 台此类机器人走进千家万户。”
Tony Zhao,联合创始人

我们现处于何处?

我们正处于技术突破与产品变革之间的交汇期。

第一步:技术

“GPT” 时刻

秘方已备,算法已初现生机。

● 您在此处

规模化阶段

收集数据以证明该方案能像大语言模型(LLM)那样实现规模化扩张。

第三步:产品

“ChatGPT” 时刻

易用的消费级产品 (Memo) 应运而生。

突破循环

传统机器人学依赖于脆弱的“感知 → 规划 → 行动”循环。而现代 AI 机器人则利用 模仿学习 以实现跨任务的行为泛化。

规模化效率
泛化能力与投入成本

核心秘籍

扩散策略 (Diffusion Policy)

机器人学曾一度追求完美。如果研究人员在数据采集过程中的动作不够 精确,模型便会宣告失败。

扩散策略 改变了游戏规则。它允许机器人从“杂乱”的数据中学习——捕捉多种行为模式。这意味着未经训练的人员现在也能教授机器人,从而解锁了构建基础模型所需的数据规模。

“我们可以让多人,甚至是未经训练的人员来收集数据,而结果依然出色。这真正解锁了可扩展的训练模式。” — Cheng Chi

下章预告

我们已经确立了愿景与软件引擎(扩散策略)。但软件需要躯体。我们如何将这一策略转化为物理行动? 接下来:ACT 与 ALOHA 的角色 →

从算法到物理实体的演进

虽然扩散策略(Diffusion Policy)提供了算法大脑,但物理瓶颈依然存在。如何在没有 VR 远程操作那种令人眩晕的延迟的情况下,教会机器人灵巧的动作?

ALOHA 与 ACT:远程操作的游戏化

在 ALOHA 诞生前,采集机器人数据如同在糖浆中穿行——VR 设备的延迟让操作者与机器人的手部动作产生了脱节。

解决方案: 一套低延迟的双臂系统,操作感与其说是在做实验室实验,不如说是在玩电子游戏。这种即时反馈闭环让采集真正灵巧的数据成为可能。

为何这至关重要: 一旦数据质量得到提升,团队终于可以摒弃简单的 MLP 架构,转而拥抱 Transformers。事实证明,深度学习在机器人领域的折戟并非由于架构问题,而是因为高保真数据的匮乏。

概念:动作分块 (Action Chunking)

人类的思考并不以毫秒为单位。我们感知、规划路径,然后行动。

  • 每毫秒预测单个动作(动作抖动)
  • 预测完整轨迹(动作平滑)

结果:产生类似于生物运动的连贯、流畅的动作。

UMI 登场:走进荒野的数据

通用操作接口 (Universal Manipulation Interface)

机器人之所以在现实世界表现不佳,是因为它们仅在实验室里受训。为解决此问题,团队彻底摆脱了机器人的束缚。

利用 3D 打印夹爪和 GoPro,他们在餐厅、食堂和户外收集数据。无需机械臂——仅凭纯粹的观察与动作数据。

阳光下的教训

机器人在除阳光直射外的所有场景下都表现完美。为何?因为数据是在长达两周的雨天采集的。分布匹配是不可逾越的底线。

图表:数据采集范式的转变。

“也许我们该开家公司,它的表现真的太出色了。”

他们仅凭 20 万美元的学术预算,便通过攻克数据瓶颈,在性能上超越了那些耗资巨大的方案。这项技术已蓄势待发,准备走出斯坦福的实验室。

下期预告:Sunday 的诞生

弥合鸿沟

我们已经探讨了 ACT、ALOHA 和 UMI 等赋能机器进行学习的算法。但算法需要载体。从斯坦福公寓里的一张书桌,到初具规模的团队,使命已从纯粹的学术研究转向了构建 Sunday 的复杂现实:这是一款并非为工厂、而是为您的客厅打造的机器人。 Sunday 反“终结者”。

为什么家庭机器人的未来看起来不像科幻片里的金属铬,而更像皮克斯动画里的角色。

26

在设计一款如影随形的机器——某种你在每个清晨冲泡咖啡时都会见到的物件——时,工业美学便不再奏效。Sunday 的设计哲学摒弃了工厂机器人那种“精确、僵硬、盲目”的特质。

“它应该有一张可爱的脸……我们不希望是由一个‘终结者’在为你洗碗,我们希望这个机器人给人的感觉就像是从卡通电影里走出来的一样。”

三指论点:

为何要完美复刻人类的手掌?那既昂贵且往往并无必要。通过将手指整合为三指抓取器,Sunday 仅需极低的成本,便能实现 90% 的人类效用(如抓取把手、打开洗碗机)。 精准悖论

传统机器人虽然“盲目”,但在机械构造上趋于完美。Sunday 则完全反其道而行之。

  • 硬件: 廉价、顺应、甚至略显“笨拙”的执行器。天生安全,但缺乏精度。
  • 软件: 高保真 AI 视觉。结果

“用眼睛纠正身体的错误。”

幕后的打磨:手套的迭代

数据质量护城河

Data Quality Moat

复制看似简单,但准入门槛在于硬件与数据流水线的整合。“Sunday 手套”(数据采集设备)经过了大规模迭代,才得以经受住 500 多名操作人员各种奇思妙想的考验。

迈向 2026 之路

现状

内部原型设计与“细节打磨”

2026

Beta 测试项目启动

真实的家庭。真实的孩子。真实的混乱。

下一步

500 人规模阵列

机器人已就绪。使命已明确。现在,我们该如何为其喂送足够的高质量数据,使其变得聪明?

从硬件到心智

在确立了物理哲学和交付时间表之后,问题依然存在:Sunday 该如何教导机器理解现实世界的混沌?答案在于海量的人类运动数据。

1,000 万个
轨迹大脑

数据规模

学术界往往依赖于孤立的“拿起杯子”任务,而 Sunday 已经在实际场景中收集了近 1,000 万个长程轨迹——涵盖了同时进行的行走、导航和操作。

10M+

方法论的大分歧

并非所有的机器人大脑都以相同的方式构建。Sunday 团队发现了一个反直觉的事实:“手套”形态(一种手持模仿设备)产生的更优质数据,效果优于僵硬的远程操纵装置。

“手套鼓励人们进行更自然的运动……从而产生更智能的行为。”

这导致了机器人训练中的一种分化:

  • 模仿学习(手套):在精细操作方面表现更优。捕捉手部抓取软杯的细微差别,通过演示来实现,要比通过模拟更容易。
  • 强化学习 (RL):在移动能力方面表现更优。行走涉及刚体物理(脚着地),这很容易模拟,但其反应性行为却很难通过手动编码实现。

模拟悖论

为什么 Sunday 对足部和手部使用不同的大脑

*操控需要对流体动力学和形变进行建模(仿真之难),而移动则需要复杂的反应性平衡(行为之难)。

隐藏的工程成本

规模揭示了脆弱性。当轨迹达到一千万条时,人工核查数据已无可能。Sunday 必须构建自动化校准系统,在手套传感器发生漂移并污染“集体智慧”之前将其及时发现。

“你不需要人类盯着数据也能察觉出问题。”

下篇预告

随着数据流水线的稳固,我们将目光转向现实的硬性限制:技术挑战。

弥合差距

在确立了 Sunday 训练数据的宏大规模后,话题转向了执行的熔炉。数据是燃料,但引擎——即“训练配方”和物理硬件——现在必须经受住现实压力的考验。

硬件是难关.

为什么创办机器人公司需要避开“花哨的研究”,转而追求残酷的反馈循环。

挑战 01

规模化配方

该领域刚刚进入海量数据可用的阶段。挑战已不再是获取数据,而是定义确切的“训练配方”,以从中提炼出鲁棒的行为特征。

“我们要避免进行无法规模化的研究。拒绝花哨、虚浮的想法。我们首要关注基础设施。”

挑战 02

硬件摩擦

当学习团队推进软件性能时,硬件往往会损坏。这就是为什么“全栈”路径是不容置疑的。

  • 机械团队构建硬件。
  • 学习团队挑战性能极限。
  • 硬件失效 -> 立即进行内部迭代。

通往普及之路

2026:Beta 测试计划

入选用户将在家中迎来真实的机器人。目标:理解人机交互,并界定哪些家务劳动真正具有价值。

2027 – 2028:商业化发布

视 Beta 测试结果而定。对可靠性与成本执行严苛标准。“这绝非十年后的遥不可及。”

“我确实厌恶洗碗。我们未来的世界将更加洁净。家庭劳动的边际成本将趋于零。”

规模经济

现有原型机与目标消费价格之比

洞察: 执行器已经很便宜了。目前的成本驱动因素是小批量的外壳(CNC/喷漆)。规模化注塑成型将使材料成本降至1万美元以下。

接下来的内容

从理论到实践

为何过去的演示失败了 & Sunday 的新路径 →

继续从技术瓶颈向可见实证迈进的旅程……

能力幻象:
为何大多数机器人演示都在欺骗你。

做到 零假设
无先验。

当你看到机器人把杯子递给一个人时,人类本能会填补其间的逻辑空白。我们假设它可以把 任何 杯子递给 任何 一个人。通常情况下,它只能将那个特定的物体移动到那个特定的坐标。

复杂度阶梯

在一系列动作中,失败的概率会随着每次交互而叠加。

Sunday 的“现实世界”三位一体

数据驱动的验证

1. 杂乱的桌面(长时程任务)

清理桌子并非单一任务,而是一场移动操作的交响乐。从高处(餐桌)到低处(洗碗机),处理易碎玻璃,并处置厨余垃圾。

  • 单手拿起两只酒杯(需要精准的力度控制)。
  • 高风险:握力过大,杯子碎裂;推力失当,瞬时崩裂。

2. 极致灵巧

折叠袜子和操作咖啡机不仅需要视觉,更需要触觉。

“当你远程操作时,你的手是麻木的。你可能会施加无限大的力却浑然不知。”

Sunday 的手套捕捉到了 力封闭——处理柔软物品所需的触觉反馈闭环。

3. AirBnB 测试(零样本)

实用性的终极测试。机器人被投放进一个随机的 AirBnB 房间,且 零训练数据 来自那个特定的家。

挑战 晶亮的银器,玻璃台面,奇幻的光影。
赋能之源 500多名多元化的数据采集员,提供海量的先验数据。

延续篇章

在跨越了早期演示的挫败并成功展示了 Sunday 现有的实力之后,对话转向了驱动这一进步的核心引擎:人才。构建一个集硬件、软件与人工智能于一体的系统,需要一种独特而罕见的工程师。

全栈
机器人专家

重新定义“栈”的内涵

Sunday 寻找的并非各司其职的专才。他们正在定义一种全新的原型:全栈机器人专家

在传统技术领域,“全栈”意味着从数据库到前端。而在机器人领域,技术栈是物理存在的。为了优化系统,你不能被局限在方寸工位之间,必须跨越以下领域的边界:

  • 机械工程
  • 电气系统
  • 代码与逻辑
  • 数据科学

多学科融合

“我们将软件工程师培养成机器人专家。”

“我意识到……瓶颈实际上在于机器人将如何移动。那是编程。接着我意识到还有机器学习……对我来说,逐渐扩展我的技能集是很自然的,因为我始终渴望亲手打造机器人。”
— 演讲者 2,谈机器人专家的演进

为何加入?

“凡是你对机器人、消费产品和机器学习所能产生的一切想象,都能在这里找到。”

硬件 软件 体验

继续收听

意犹未尽?欢迎订阅 No Priors 以获取人工智能与机器人前沿领域的每周更新。

Apple Podcasts Spotify YouTube
接下来 结语 →

关联单集