E223|应用爆发之年:聊聊模型技术进化与商业化
- 泓君《硅谷101》创始人,播客主理人,本期节目主持人。
- 徐栋阿里云千问大模型业务总经理,负责推动大模型在全行业的渗透与商业化落地。
- 亓鲁影石Insta360研究院总监、教授,专家领域为AI智能硬件、全景相机及视频处理技术。
- 吕瀛杰语忆科技联合创始人兼CEO,专注于将AI大模型应用于企业数据分析、咨询行业及SaaS服务。
从“特效玩具”到“数字影棚”:2025 视频生成与大模型的“可控”革命
三位一体的基础架构
- Qwen (语言)逻辑中枢
- Wanx (视觉)像素重构
- Audio (音频)拟真交互
2025 效率爆发
稀疏模型结构将使响应速度提升 3 倍以上,成本大幅下降。
商业化甜点位
生产效率对比:传统 vs AI
| 维度 | 传统管线 | AI 赋能管线 |
|---|---|---|
| 人力成本 | 大型摄制组/后期组 | 约 5 人小团队 |
| 产出效率 | 日产 1-5 条精品视频 | 日产约 6000 条视频 |
| 可控性 | 拍摄决定一切 | 人物/物体/声音可复刻 |
“可控性的提高,意味着 AI 不再是随机出图,而是成为了专业级的数字影棚。”
“2025 年,AI 将从‘部分参与’转向‘全流程生产’,这不仅是速度的提升,更是确定性的胜利。”
硬件觉醒:当大模型长出“眼睛、耳朵与手脚”
感官增强:从“识别”到“理解”
智能眼镜不再只是摄录,而是具备了视觉模型与文本模型的双重感知,能够像人类一样“看懂”菜单并直接闭环支付。
双轮驱动:生产力与体验
- • B端:重塑业务流程,结果导向。
- • C端:重塑交互方式,入口导向。
端云结合:7:3 黄金分割
未来七成通用任务(语音、基础视觉)将在本地完成,保障隐私与响应速度。
AI 眼镜订咖啡:全链路闭环示意
从“智商竞争”到“算账比赛”:大模型商业化的下半场
从“效果”到“性能”
过去追求模型能写诗,现在要求模型必须快、稳、便宜。就像从实验室原型车变成量产家用轿车。
- 模型稀疏化 (MoE)
- 软硬一体化 (芯片+云)
- 精细调度 (闲时利用)
开源即护城河
让全球最聪明的大脑(开发者、学生)在千问的生态里成长,是比赚钱更重要的事。
模型选择的第一性原理:匹配胜过强大
COST COMPONENT ANALYSIS / 推理成本构成分析
* 数据基于对话内容逻辑推演,仅供可视化理解
成本是硬道理,大模型的推理成本基本上每半年就会有一个量级的下降。
从“计字收费”到“读懂人心”:AI 进入精耕细作的下半场
从“计数”到“结果”
早期评估看 Token(字符)消耗,未来则看任务完成度。就像请厨师,以前按切菜量算钱,现在按菜好不好吃算钱。
智能体(Agent)崛起
- 工具调用能力的极致提升
- 复杂指令的精准执行
- 工程细节的无尽打磨
捕捉“意图”
AI 剪辑不再是生硬拼接,而是通过语义理解,区分“纪录片风”与“高光瞬间”,真正实现审美同步。
模型进化的“精细化”路径
智能的定义正在改变:如果智能可以打分,现在的精耕细作就是为了让那个分数在真实业务中变得更高。
从“全景视界”到“意图解读”:AI 如何重塑数字生活的剪辑师与导购员?
影石:全景重构
通过自研全景理解模型,将 360° 冗余素材压缩并提取高光。解决“先拍后剪”中的选择困难症,迈向视频版“世界模型”。
语忆:消费归因
将客服对话标签化。准确率从 70% 提升至 Agent 级别,实时识别肤质、过敏反馈,将退货理由自动归因至责任部门。
降本增效
视频处理成本:从高昂卡耗通过技术压缩至约 10 元/段。零售运营:从 6 人归因团队进化为全自动 AI 绩效考评。
全景 AI 处理工作流
* 为什么不直接用开源模型?因为全球全景素材数据稀缺,开源模型对 360 度视角的理解能力不足。
AI 剪辑的壁垒,不仅是理解画面,更是要消除用户表达意图时的“翻译成本”。
从“降本”到“增产”:AI 如何重塑商业直觉
意图识别能力
选择通义千问(Qwen)作为基座,核心看重其在电商场域下,对中国消费者细微意图的精准捕捉。
从存量到增量
决策者的洞察
当工具(AI)被抹平时,如何利用 AI 生成的分析数据进行“人的决策”,决定了企业的最终天花板。
BUSINESS LOGIC TRANSITION
图:企业 AI 投入目标的重心位移
AI 的上限不在于它能替你省下多少人工费,而在于它能帮你发现多少以前看不见的生意机会。
从“买软件”到“交电费”:AI 如何重塑 ToB 生意的账本
商业逻辑的代际跃迁
传统 SaaS 依赖“功能订阅”,而 AI SaaS 转向“成本计价”。当 AI 背后存在真实的算力消耗时,客户更愿意接受类似“水电煤”的按量付费模式。
基于语音、社媒、意图识别等维度的处理总量
原始数据采集
获取语音、社媒、交互等全域海量碎片信息
AI 模型深加工
意图识别、归因分析、人群画像构建
按量价值交付
按处理量折算成本包,实现商业闭环
商业模型对比:传统 SaaS vs AI SaaS
| 维度 | 传统 SaaS | 语忆科技 AI 模式 |
|---|---|---|
| 计费核心 | 功能开关/坐席数 | 数据处理量 (Usage) |
| 价值感知 | 工具使用权 | 结果产出与决策建议 |
| 成本结构 | 边际成本趋于零 | 算力/API 显性成本 |
AI 让企业学会了像交电费一样为软件付钱。
从“特效玩具”到“数字影棚”:2025 视频生成与大模型的“可控”革命
三位一体的基础架构
- Qwen (语言)逻辑中枢
- Wanx (视觉)像素重构
- Audio (音频)拟真交互
2025 效率爆发
稀疏模型结构将使响应速度提升 3 倍以上,成本大幅下降。
商业化甜点位
“
视频生成进入“可控生产”时代
- AI 模型正从单一语言处理演进为语言、视觉、音频三位一体的矩阵。
- 视频生成已跨越特效阶段,进入规模化生产:5人团队日产6000条视频成为可能。
- “可控性”是当前技术的核心突破,支持人物、物体与背景的高度一致性。
Read Insight
视频生成进入“可控生产”时代
- AI 模型正从单一语言处理演进为语言、视觉、音频三位一体的矩阵。
- 视频生成已跨越特效阶段,进入规模化生产:5人团队日产6000条视频成为可能。
- “可控性”是当前技术的核心突破,支持人物、物体与背景的高度一致性。
“可控性的提高,意味着 AI 不再是随机出图,而是成为了专业级的数字影棚。”
“
AI 漫剧与广告:商业化落地的“第一桶金”
- 国内短剧市场规模已超电影,AI 漫剧成为结合最紧密的应用场景。
- AI 广告生成单条成本已降至 25-50 元,形成良性商业闭环。
- 广告主与电商卖家通过批量生成素材,极大提升了投放转化率。
Read Insight
AI 漫剧与广告:商业化落地的“第一桶金”
- 国内短剧市场规模已超电影,AI 漫剧成为结合最紧密的应用场景。
- AI 广告生成单条成本已降至 25-50 元,形成良性商业闭环。
- 广告主与电商卖家通过批量生成素材,极大提升了投放转化率。
“
2025 模型进化:更聪明、更快速、更精准
- 2025 年关键词:稀疏结构 (MoE)、高推理能力、指令遵循。
- 响应速度 (TPS) 将从 30-50 提升至 100 以上。
- AI 开始表现出“逻辑偏好”,能够执行包含跨软件操作的复杂指令。
Read Insight
2025 模型进化:更聪明、更快速、更精准
- 2025 年关键词:稀疏结构 (MoE)、高推理能力、指令遵循。
- 响应速度 (TPS) 将从 30-50 提升至 100 以上。
- AI 开始表现出“逻辑偏好”,能够执行包含跨软件操作的复杂指令。
“2025 年,AI 将从‘部分参与’转向‘全流程生产’,这不仅是速度的提升,更是确定性的胜利。”
硬件觉醒:当大模型长出“眼睛、耳朵与手脚”
感官增强:从“识别”到“理解”
智能眼镜不再只是摄录,而是具备了视觉模型与文本模型的双重感知,能够像人类一样“看懂”菜单并直接闭环支付。
双轮驱动:生产力与体验
- • B端:重塑业务流程,结果导向。
- • C端:重塑交互方式,入口导向。
端云结合:7:3 黄金分割
未来七成通用任务(语音、基础视觉)将在本地完成,保障隐私与响应速度。
“
物理世界的‘交互闭环’:智能眼镜能买咖啡了?
AI 硬件正在经历从简单的语音识别(ASR)到深层语义理解的跨越。通过视觉与文本模型的结合,智能硬件已能实现从‘看到需求’到‘完成支付’的完整闭环。
Read Insight
物理世界的‘交互闭环’:智能眼镜能买咖啡了?
AI 硬件不再是冰冷的工具,它是你贴身的、拥有记忆的数字入口。
“
商业化的十字路口:提升生产力 vs 优化用户体验
大模型的商业化分为两个核心维度:企业侧通过流程再造提升‘生产力’;消费侧通过硬件交互重塑‘用户体验’。其中,端侧模型(计算在本地)的崛起成为关键转折点。
Read Insight
商业化的十字路口:提升生产力 vs 优化用户体验
“端侧优先”的底层逻辑
当模型小型化技术突破临界点(如 Qwen-0.5B),本地芯片即可驱动。这带来了:
1. 零延迟:无需等待网络传输。
2. 强隐私:你的私人对话和面部数据不出设备。
3. 低成本:厂商无需承担昂贵的云端推理带宽费。
从“智商竞争”到“算账比赛”:大模型商业化的下半场
从“效果”到“性能”
过去追求模型能写诗,现在要求模型必须快、稳、便宜。就像从实验室原型车变成量产家用轿车。
- 模型稀疏化 (MoE)
- 软硬一体化 (芯片+云)
- 精细调度 (闲时利用)
开源即护城河
让全球最聪明的大脑(开发者、学生)在千问的生态里成长,是比赚钱更重要的事。
“
商业化的真谛:客户不再为“花架子”买单
企业级用户对AI的需求已进入‘严肃生产’阶段,关注点全面转向TPS(并发处理能力)、海量输入下的响应速度以及极端的成本控制。
Read Insight
商业化的真谛:客户不再为“花架子”买单
成本是硬道理,大模型的推理成本基本上每半年就会有一个量级的下降。
COST COMPONENT ANALYSIS / 推理成本构成分析
* 数据基于对话内容逻辑推演,仅供可视化理解
从“计字收费”到“读懂人心”:AI 进入精耕细作的下半场
从“计数”到“结果”
早期评估看 Token(字符)消耗,未来则看任务完成度。就像请厨师,以前按切菜量算钱,现在按菜好不好吃算钱。
智能体(Agent)崛起
- 工具调用能力的极致提升
- 复杂指令的精准执行
- 工程细节的无尽打磨
捕捉“意图”
AI 剪辑不再是生硬拼接,而是通过语义理解,区分“纪录片风”与“高光瞬间”,真正实现审美同步。
“
评价标准的维度跃迁:Token 之后是什么?
探讨 AI 评估体系的去泡沫化:从量化字符消耗转向量化任务结果。大模型研发也已进入拼细节、拼 Agent 工具调用能力的新阶段。
Read Insight
评价标准的维度跃迁:Token 之后是什么?
智能的定义正在改变:如果智能可以打分,现在的精耕细作就是为了让那个分数在真实业务中变得更高。
从“全景视界”到“意图解读”:AI 如何重塑数字生活的剪辑师与导购员?
影石:全景重构
通过自研全景理解模型,将 360° 冗余素材压缩并提取高光。解决“先拍后剪”中的选择困难症,迈向视频版“世界模型”。
语忆:消费归因
将客服对话标签化。准确率从 70% 提升至 Agent 级别,实时识别肤质、过敏反馈,将退货理由自动归因至责任部门。
降本增效
视频处理成本:从高昂卡耗通过技术压缩至约 10 元/段。零售运营:从 6 人归因团队进化为全自动 AI 绩效考评。
“
AI 剪辑的终极命题:读懂你的‘弦外之音’
剪辑不仅仅是拼接画面,更是对用户模糊意图的精准捕捉。影石通过自研全景理解模型,试图在海量 360° 素材中自动识别高光时刻,降低普通人的创作门槛。
Read Insight
AI 剪辑的终极命题:读懂你的‘弦外之音’
AI 剪辑的壁垒,不仅是理解画面,更是要消除用户表达意图时的“翻译成本”。
“
AI 进军零售业:从流水线客服到‘金牌咨询’
语忆科技展示了 AI 如何在消费领域实现‘意图标签化’。通过识别客服对话中的肤质、反馈和情绪,AI 不仅提高了服务准确率,还通过自动化归因重塑了企业的管理绩效。
Read Insight
AI 进军零售业:从流水线客服到‘金牌咨询’
从“降本”到“增产”:AI 如何重塑商业直觉
意图识别能力
选择通义千问(Qwen)作为基座,核心看重其在电商场域下,对中国消费者细微意图的精准捕捉。
从存量到增量
决策者的洞察
当工具(AI)被抹平时,如何利用 AI 生成的分析数据进行“人的决策”,决定了企业的最终天花板。
“
意图识别:AI 正在成为电商的“读心者”
- 基模选择: 语忆科技选择通义千问(Qwen)是看中其在复杂电商文档处理及中国消费者语义理解上的卓越表现。
- 核心壁垒: “中间层”不仅仅是接口转发,更通过留存行业垂直数据,训练出比基座模型更懂业务的“行业专家”模型。
Read Insight
意图识别:AI 正在成为电商的“读心者”
- 基模选择: 语忆科技选择通义千问(Qwen)是看中其在复杂电商文档处理及中国消费者语义理解上的卓越表现。
- 核心壁垒: “中间层”不仅仅是接口转发,更通过留存行业垂直数据,训练出比基座模型更懂业务的“行业专家”模型。
AI 的上限不在于它能替你省下多少人工费,而在于它能帮你发现多少以前看不见的生意机会。
从“买软件”到“交电费”:AI 如何重塑 ToB 生意的账本
商业逻辑的代际跃迁
传统 SaaS 依赖“功能订阅”,而 AI SaaS 转向“成本计价”。当 AI 背后存在真实的算力消耗时,客户更愿意接受类似“水电煤”的按量付费模式。
基于语音、社媒、意图识别等维度的处理总量
原始数据采集
获取语音、社媒、交互等全域海量碎片信息
AI 模型深加工
意图识别、归因分析、人群画像构建
按量价值交付
按处理量折算成本包,实现商业闭环
“
从功能付费到算力付费
AI 时代的商业变革在于成本的显性化。当软件背后是真实的算力支出,中国客户正逐渐接受‘按量计费’的新逻辑,这为 SaaS 行业带来了前所未有的高增速机会。
Read Insight
从功能付费到算力付费
AI 让企业学会了像交电费一样为软件付钱。
