ESC

阶跃星辰的竞品棋局:多模态大模型赛道的差异化突围与隐忧

从“低调”到“亮剑”:阶跃星辰的竞品定位

过去一年,国内大模型赛道热闹非凡,百模大战打得火热。但阶跃星辰这家公司,早期给人的印象是“技术很强,但有点闷”。直到最近,随着阶跃星辰发展动态的密集释放——尤其是其在多模态领域的连续动作,我才意识到,这家公司其实一直在下一盘大棋。它没有盲目跟风卷通用对话式AI,而是把宝押在了“多模态理解与生成”这个更硬核的赛道上。

从竞品分析角度看,阶跃星辰的定位非常清晰:不做另一个“文心一言”或“通义千问”,而是要做能同时处理文字、图像、视频、音频的“全能型选手”。目前公开的信息显示,其自研的Step系列模型在多项多模态基准测试中表现不俗,尤其是在视频理解和复杂图文推理任务上,甚至能跟国际一线的GPT-4V、Gemini掰一掰手腕。但这只是开始,真正的竞争才刚刚拉开帷幕。

技术路线对比:阶跃、智谱、MiniMax的“三岔口”

国内大模型创业公司里,智谱AI走的是“全栈自研+学术派”路线,MiniMax押注“长文本+AI社交”,而阶跃星辰则选择了“多模态+垂直场景深耕”。这三家公司的技术路线差异,某种程度上代表了国内AI创业的三种典型思路。

阶跃星辰:多模态是护城河,也是高投入

阶跃星辰的优势在于其多模态模型的底层架构设计。据了解,他们的模型在训练时就将图像、视频、音频的token与文本token进行了深度对齐,而不是简单地在后期拼接一个视觉模块。这种“原生多模态”设计的好处是,模型在处理跨模态任务时(比如“根据一张图写一段解说词并配上背景音乐”),理解和生成的连贯性会明显强于“拼接式”方案。但代价也很明显:训练成本极高,数据清洗和标注的复杂度呈指数级上升。

智谱AI:学术根基深厚,但商业化偏慢

智谱的GLM系列模型在学术圈口碑很好,技术论文发得勤快,开源生态也做得不错。但说实话,在面向普通用户的AI工具层面,智谱的产品体验还有优化空间。比如其AI绘画和视频生成功能,目前更多还是“技术演示”阶段,离好用、易用还有距离。

MiniMax:商业化最激进,但技术纵深存疑

MiniMax的“海螺AI”在C端用户中增长很快,尤其是其语音对话和AI角色扮演功能,确实抓住了年轻用户的痛点。但它的多模态能力相对薄弱,目前主要还是文本和语音为主。如果阶跃星辰能把多模态能力做成一个“好用且便宜”的AI工具,MiniMax的压力会很大。

维度阶跃星辰智谱AIMiniMax
核心优势原生多模态架构,跨模态理解强学术底蕴深厚,开源生态好C端产品化能力强,用户增长快
主要短板训练成本高,C端产品声量待提升商业化速度偏慢,产品体验不够极致多模态技术积累相对薄弱
典型应用场景视频理解、图文创作、AI编剧企业级知识库、科研辅助AI社交、语音助手、角色扮演
用户感知度中等,主要在技术圈和开发者圈中等偏上,学术和开发者圈知名度高高,C端用户基数大

从这张对比表能看出来,阶跃星辰目前处于一个“技术有亮点,但用户感知不强”的阶段。它需要一个爆款级的AI工具来打破这个局面。

行业影响:多模态大模型将如何改变AI应用生态

阶跃星辰的持续发力,对整个AI行业至少有三重影响。第一,它证明了“多模态”不是锦上添花,而是下一代AI的标配。过去大家觉得AI能聊天就够了,但现在,能看懂图、听懂音、生成视频的AI,才是真正有“理解力”的AI。第二,它倒逼其他厂商加速多模态布局。我观察到,最近百度、阿里、腾讯都在密集更新自家的多模态能力,这背后显然有竞争压力。第三,对普通用户来说,这意味着AI工具的“可用性”将大幅提升。

举个例子,之前用AI做短视频脚本,你得先写文案,再找配图,最后用其他工具生成语音,流程极其繁琐。但如果阶跃星辰的模型能一步到位:输入一个主题,它自动生成脚本、配图、配音甚至背景音乐,那内容创作者的工作流将被彻底重塑。这不仅是效率提升,更是创作门槛的降低。

我的判断是:未来12个月内,多模态能力将取代“大参数量”成为衡量大模型水平的核心指标。谁能在多模态上做到“又快又准又便宜”,谁就能拿到下一张船票。

隐忧与挑战:阶跃星辰需要跨过的几道坎

虽然前景光明,但阶跃星辰面临的挑战也不小。第一是成本问题。多模态模型的推理成本远高于纯文本模型,如果无法有效降低单次调用成本,很难在C端大规模铺开。第二是产品化能力。技术强不等于产品好,阶跃星辰目前对外展示的多是API和演示Demo,缺乏像“文心一言App”或“豆包”那样用户量级的AI工具。第三是数据闭环。用户使用量不足,意味着模型难以获得高质量的真实反馈数据,这会影响后续迭代速度。

另外,我还注意到一个细节:阶跃星辰在开源方面的动作相对保守。在AI动态中,开源社区的力量不可忽视。智谱通过开源积累了大量的开发者口碑,而阶跃星辰如果继续走“闭源+API收费”路线,可能会在开发者生态上吃亏。毕竟,很多中小企业和个人开发者,更愿意选择有开源版本、可以本地部署的模型。


说到底,阶跃星辰发展动态的背后,是一场关于“技术路线选择”的豪赌。它赌的是多模态将成为AI的主流交互方式,赌的是自己能在成本、速度和效果之间找到最佳平衡点。作为行业观察者,我乐见其成——毕竟,有实力的玩家越多,这个行业才越有看头。但我还是想说一句:别光顾着炫技,赶紧出几个让普通用户愿意每天打开的AI工具吧,这才是王道。