对话 ElevenLabs 联合创始人:语音 AI 的未来,从实时翻译到全能智能体
重新定义“人类信号”。
Mati Staniszewski 与 ElevenLabs 实现了此前被认为不可能的事:合成语音中的情感忠实度。从 2022 年的白手起家到如今 3 亿美元的年化收入规模,他们不仅是在打造工具,更是在重塑未来的交互界面。
Mati Staniszewski
ElevenLabs 联合创始人兼首席执行官
地点:伦敦 / 全球远程办公
仅历经三年运营。
员工分布于伦敦、纽约、华沙、旧金山和东京。
在平台上进行创作的创作者和开发者。
营收构成:均衡的生态系统
数据创业缘起
“如果你看波兰语电影……无论角色男女,所有的配音都由同一个人完成。那体验简直糟糕透了。”
对配音中“平淡生硬”的挫败感,开启了对一种能跨语言保留原始情感与语调的人工智能的追求。
语音:终极交互界面
几十年来,我们一直致力于让自己适应机器——在玻璃上打字、点击鼠标、盯着屏幕。Mati 认为,这种交互界面在根本上是破碎的。
未来不在于更好的键盘,而在于回归人类最古老的交互方式:语音。无论是与机器人、智能手机还是沉浸式媒体互动,屏幕带来的摩擦感正在消失。ElevenLabs 不仅仅是在生成音频,他们正在构建整个互联网的对话层。
下章预告
打造机器:研究与产品的博弈 →
发明的架构
暂且放下规模指标,深入探究其“动力舱”。一家初创公司如何在基础研究与消费级产品之间,编排出一场精妙的平衡之舞?
“机械化”壁垒
最初的障碍并非规模,而是品质。早期利用现有市场模型所做的尝试均告失败,因为其产出的语音根本称不上是“悦耳的人声”。
“我们很快意识到,当时存在的模型生成的语音机械感太强,人们根本不愿倾听。”
市场拉动 vs. 愿景驱动
基于用户需求的开发时序 vs. 基于内在信念的推进。
实验室架构
基础层。通过 TTS 技术解决拟人化叙事的核心难题。
编排层。整合知识库 + LLM + TTS + STT 以实现交互。
扩展层。响应创作者对正版授权背景音频的需求。
北极星愿景
“《银河系漫游指南》中‘巴别鱼’的终极构想……旨在打破语言隔阂。”
配音并非市场的既有诉求——它的诞生,是因为未来的召唤。
架构已成,实验室已就位。但随着我们从静态叙事转向动态智能体,挑战的性质也随之演变。
延续脉络
在研究与产品开发构筑起引擎的同时,交互界面依然保留着深刻的人文底蕴。我们现在的视角从技术架构转向关于 感知与应用的感性艺术。
声音品鉴师
与智能体未来
买家并非机器学习科学家。他们不追求基准指标;他们追求的是一种 感觉。行业正在从静态的文本转语音转向动态、具备语境感知能力的“声音品鉴师”,通过塑造音频身份,为政商领域的全自主智能体铺平道路。
AI 的“品鉴师”进路
访谈记录强调了一个关键空白:标准的机器学习评估无法衡量“品牌契合度”。解决方案是“声音侍酒师”——一位将企业需求与声音质感相匹配的人机协作专家。
“我们有一位声音侍酒师……那个人就像一位发声教练,其自身拥有非凡的嗓音,并将与您合作,协助寻找精准的品牌定位。”
动态个性化
未来不再是“千篇一律”的声音,而是动态适配:晨间新闻采用高能量的人格设定,面向老年群体采用平稳、缓慢的语调,而在晚间阅读时则切换为舒缓的语气。
案例研究:人口统计学调优
基于日韩客户数据:针对不同用户群体优化交付体验。
从静态支持到沉浸式智能体
主动式商业
示例:Meesho(印度)
从单纯处理“我的退款在哪里?”转向全能购物助手,通过语音组件引导目录、推荐礼品并管理结算。
活化 IP
示例:Epic Games
静态角色变得具有交互性。数百万玩家在《堡垒之夜》中与达斯·维达实时互动,创造出一种可扩展且个性化的叙事体验。
顶级导师
示例:Chess.com / Masterclass
不仅仅是观看大师,更是向他们学习。与克里斯·沃斯进行互动式谈判练习,或与马格努斯·卡尔森进行棋局分析。
智能体化国度
示例:乌克兰
最宏伟的目标:全数字化政府部门。由 AI 智能体驱动的主动式公民参与、福利导航及教育改革。
“这听起来像是一个宏大的目标……但令人惊叹的是,他们在实际执行方面已经遥遥领先。”
要执行像“智能体化政府”这样复杂的愿景,基础设施的选择便关乎存亡。
从能力到战略
在确立了“何为”当这些智能体的能力范畴——从客户支持到内部培训——被清晰界定,话题便转向了董事会的决策困境。对于全球 2000 强企业而言,核心问题已不再仅仅关乎语音质量,而是上升到了架构哲学的高度。是聘请顾问,购买单点解决方案,还是与平台建立伙伴关系?
企业决策矩阵
随着企业寻求部署丰富的语音交互,行业版图分化为三条迥异的路径。主持人提出,这本质上是在 Palantir 等咨询巨头、Sierra 等单点解决方案,以及平台型技术公司之间做出抉择。
演讲者结合其在 Palantir 的执业背景,详细阐述了 ElevenLabs 的理念:它并非一个“单点解决方案”。相反,它被定位为一种开放式基础设施,旨在贯穿整个组织机构——同时为客户支持、销售及内部培训提供动力。
“如果您寻求在广泛而多元的体验中进行部署……那么我们便是您的不二之选。”
供应商图谱
咨询模式(如 Palantir)
适用场景:需要大规模资源投入的广泛数字化转型征程。
单点解决方案(如 Sierra)
适用场景:需要立即获得“开箱即用”型智能体的特定、封闭式用例。
平台 + 前线部署模式 (ElevenLabs)
适用场景:跨部门(销售 + 支持 + 培训)的多模态部署,并伴有定制化工程支持。
全球音频精英
预计能实现音频领域架构性突破的顶尖研究人员数量。
约 100 名
全球研究人员总数
巨头为何难觅胜算
对话探讨了“无先验经验”的假设:为何初创公司能与 Google 或 OpenAI 同台竞技?答案在于专注度。当大型实验室优先考虑通用规模时,音频领域更需要特定的架构突破,而非仅仅依靠原生算力的堆砌。
讲者揭示了一个惊人的数据:全球范围内能够推动音频前沿技术的研究者群体极小——可能仅有 50 到 100 人。通过将其中约 10 位顶尖人才聚于麾下,并专注于 产品层——涵盖集成、延迟与控制——ElevenLabs 声称其在基准测试中击败了那些通用型厂商。
下文预告
开源与研发的未来
续写叙事
在确立了基础模型的重要性之后,对话现在转向了它们的发展轨迹。随着开源能力的加速提升,一个战略性问题随之而来:防御性价值究竟存在于何处?
商品化与 生态系统护城河
“研究仅仅是先发优势。长期的价值在于围绕它所构建的生态系统。”
四年愿景
一种共识正在形成:基础模型之间的差异将变得微不足道。无论是两年还是四年,叙事与生成能力都将走向商品化。
范式转移
价值正从“模型”转向“产品层”——即连接业务逻辑、工作流及特定交互界面。
防御性
技术优势仅能维持 6 至 12 个月。真正的防御性源于品牌、渠道以及集成生态。
“买还是做”的准则
在等待研究突破与构建产品临时方案(hack)之间,该如何抉择?
三个月经验法则
如果一项产品修复所需时间少于 3 个月,立即着手构建。如果时间更长,则等待底层研究模型的提升。
里程碑预测
-
当下
旁白与内容生成在质量上趋于合流。
-
约 12 个月内
通过图灵测试
在客户支持场景下,对话式 AI 将变得与人类交互无异。
-
约 24 个月内
实时配音
无缝、低延迟的跨语言翻译与对话。
智能体端优化
对新型“Scryvy 2”(第二代)语音转文本模型进行基准测试。
“大多数技术优势……并非坚不可摧。它们能让你在一段时间内积聚势能并扩大规模。这固然强大,但绝非‘一劳永逸’的终极答案。”
展望未来
随着技术壁垒的瓦解以及延迟降低至无法感知的程度,我们正从“工具”时代迈向“实体”时代。
下篇:AI 伴侣的未来。
跨越开源技术架构与研发策略的探讨,话题转入 应用层——具体而言,即这些模型将如何融入我们的日常生活、学校与家庭。
“伴侣
”时代 从“贾维斯”式的实用工具,到未来的课堂。
原型之争
社交伙伴 vs. 超级领航员
社交型伴侣
旨在解决孤独感、情感互馈与无间断的交流。(对此,嘉宾表现得 并不那么 兴奋。)
“贾维斯”式实用工具
“我拥有一个超级助手、一个超级领航员……他懂我,能告诉我哪些信息相关,帮我拉开百叶窗,并立即播放音乐。”
时间线预测
-
01
智能体十年 听写与语音成为主要的操作系统。设备退居口袋深处,技术代你采取行动。
-
02
机器人十年 语音成为物理世界中具身智能的关键输入输出接口。
混合式课堂
嘉宾预测未来的教育将采用拆分模式,以维系人类的社交技能。
“或许会有一个很酷的版本,由 理查德·费曼 或 阿尔伯特·爱因斯坦 来讲解那些讲义……那场面定会非常精彩。”
核心要点
语音不仅是一种输入方式,它是通往“超级领航员”生活方式及大规模个性化教育的桥梁。技术渐隐,交互永存。
本节结束
进入结语