🤖 AI总结
主题
阶跃星辰Step 3.7 Flash模型在Agent效率和多模态任务中的表现评测。
摘要
评测显示Step 3.7 Flash在Agent任务中速度快、完成度高,多模态和编程能力突出,是高效的生产级模型。
关键信息
- 1 Step 3.7 Flash是面向生产级Agent的高效率Flash模型。
- 2 模型在多模态、搜索、代码生成等任务中表现出色,完成度高。
- 3 强调Agent效率,即速度、智能、成本等综合指标。
![]()
最近一直在想一个问题。
AI模型的能力,到底该怎么衡量。
看榜单分数,看推理速度,看价格,还是说看案例效果?
数了数,过去一年差不多测过80多个模型,从闭源旗舰,到开源小尺寸,我稍微有了点类似手感的东西。
但说实话,数据指标和真实使用之间,存在一个巨大的预期偏差。
有一个大模型玩家,很低调,但是技术实力和产出效果,却是悄悄达到了有惊喜的程度。
这个模型是什么情况呢?
不卖关子了,就是阶跃星辰的Step 3.7 Flash,定位是「面向生产级Agent的高效率Flash模型」。
乍一看,说实话,概念有点绕,场景还不少。
![]()
模型官网:https://static.stepfun.com/blog/step-3.7-flash/
这几天,高频用了一下,跑了几个真实场景任务,好像想明白了一件事:
我们可能一直都把Flash类模型的方向想错了。
真正Agent友好的高效率模型,其价值,正在凸显。
01一张龙珠截图,变成多模态互动游戏
直接带大家看看模型效果。
我先扔给Step 3.7 Flash的,是一张七龙珠Z的人物剧照。
画质还算清晰,图上有悟空、贝吉塔、悟饭、短笛、弗利萨、特兰克斯等十几个人物,站位分散,人物关系复杂。
![]()
我写了个简单的提示词:识别这些角色,画出人物关系图谱,再做一个互动问答游戏的网页,让用户能测试自己对龙珠人物关系的了解。
轮到Step 3.7 Flash表演了:它先是处理了视觉输入。
是在推理过程中直接分析了图片,没有单独调用OCR或检测模块。
一分多钟后,挺快的,它输出每个角色的名字和位置。
基于图片视觉信息,结合自己对龙珠系列的知识,构建了一个角色关系图。
它还输出了一份结构化数据:悟空和悟饭是父子,贝吉塔和特兰克斯是父子,短笛是悟饭的师父,弗利萨与所有人为敌。
这些关系,原本提供的图片里都没有,模型是靠搜索和推理,串联起来的。
![]()
不同人物角色,用颜色头像来表示,可以随意鼠标拖拽、分组,是可以连线交互的那种。
说实话,互动网页的效果,比预想稍差。
理想状态是,每个头像都是人物的真实照片,不要搞名字简写,跟一堆MM豆似的。
我心里想象的,是下面这个样子
![]()
不过倒也情有可原,我拿Opus 4.7也没法一步到位,实现像生图片这么好的HTML效果。
接着,我追加了一句指令,稍微降了难度,让它设计成包含人物角色图的游戏化交互面板。
模型响应很快,判断出有些关系需要核实,主动发起了联网搜索。
特兰克斯和布玛的母子关系要不要纳入图谱?画面中的特兰克斯来自哪个时间线?
它搜了龙珠人物介绍,找到多个来源,交叉验证后决定把布玛加入图谱,并在后续问答里标注时间线差异。
最后一步是代码生成。
模型基于整理好的关系数据,输出了一份完整的HTML文件。
![]()
左边是人物和名字,名字节点代表人,不同颜色的连线区分敌对、盟友、血缘。
右边是问答游戏,随机抽题,实时计分。380行代码,第一遍就能跑。
我保存成.html文件,浏览器打开,图谱正常渲染,游戏正常运作。
这次效果基本符合预期了。
![]()
还多了一个折叠面板的说明文档,教你如何修改数据源。这个模型它自己加的,挺有意思。
对比另一个主流大厂的Flash模型,同样输入,它只只给我了一个静态网页。视觉理解和后续任务之间,卡壳了。
能感觉到,Step 3.7 Flash是把多模态、搜索、代码生成,串成了一条完整链路;
执行到最后一步,也没忘了一开始让干啥。
看执行过程,是比较有推理逻辑的;看结果,已经接近了一线Agent产品的表现。
02做弗兰克个人网站,第一版就能用
这个任务比较偏coding、偏工程。
我的要求是:做AI异类弗兰克的个人网站。
很具体的场景。
网站要包含个人简介、代表作列表、过往经历等等,风格要简洁专业,适配移动端。
因为很了解我自己,也做过不止一版个人网站,测这个案例,搜索质量信息排列什么的,一眼就能看出好坏。
![]()
我把需求写得很随意,没有给设计稿,只说科技简洁风格,要有现代感。
Step 3.7 Flash开始规划。
它先输出了一份网站架构说明,包括页面结构、导航菜单、内容区块划分。
然后生成完整代码,HTML、CSS、JavaScript全在一个文件里。
![]()
我仔细看了代码。响应式布局,手机和电脑上显示都正常。
过往经历区域,用了卡片设计,每张卡片有标题、简短描述和标签。
代码里还有一个细节。
它自己加了一个暗色模式切换按钮,用localStorage记住用户偏好,可调颜色。
这个需求我完全没有提,模型觉得个人网站应该有这个功能,自作主张加上了。挺有意思的。
我用另一个更大、更贵的国产模型,试了同样的需求。
![]()
它也生成了代码,效果也还不错,就是部分元素在手机上会错位。
视觉上,大家感觉哪个更好看?
细看了下,Step 3.7 Flash的代码完成度,对比下来,是不差的,而且更快、更便宜。
虽然它参数小,但是在编程任务上做了专门优化,架构和用户体验细节上,应该也是打磨了。
第一遍给出的代码,稍改文字内容,就能直接用。
对于开发者来说,省掉的有生成时间、调试返工的时间,还有钱。
03看视频、看白板,它也能做分析
官方介绍里说多模态、视觉能力很强,能解决复杂问题。
那我得试试
传了一段手机视频,大约3秒,拍的是一个大疆pocket3。
录屏画面晃动,logo一闪而过。
![]()
我直接把视频传给Step 3.7 Flash,prompt说:这是什么产品、怎么用。
模型先定位关键帧。它找到了Logo、产品特征等等。
然后模型结合这些信息做推理。
![]()
这个过程只有一次API调用。
如果换传统做法,我需要先抽帧,把关键帧截出来传给视觉模型识别,再把识别结果喂给推理模型。
两个模型之间还要写代码衔接。
Step 3.7 Flash把视觉理解和推理决策合并成了一步。
我还测了一个会议记录场景。
拍一张白板照片,上面手写着一些内容表达的思维方法,字迹潦草,还有不少箭头和圈圈画画。
![]()
模型直接输出了一份结构化的内容,信息梳理出来了,标注了要点和注意事项。
![]()
应该没有单独跑OCR,写规则解析啥的,一次就出来结果了。
但是我还有点不满意,想用更清晰的图表,或者一页PPT来呈现。
![]()
然后PPT有了:整体结构是很好的,就是有明显的错别字;
考虑到是潦草手写识别,我自己都看不太清楚白板,能做到现在的程度,已经不错了。
Step 3.7 Flash给我的感觉是,做它的工程团队,真的在生产环境里,跑过Agent任务。
就像多模态,如果是实验室测评向的就没意思了,还是得和推理长在一起,成为可用的默认能力。
多环节、长链路的执行工作,最好也一次性做到位。
就感觉阶跃模型团队,先是很知道痛点在哪,然后才把这些痛点的解决方案,内置进了模型。
说到底,模型能力不是为了跑分好看,是为了真解决问题。
04Agent效率,大概是下一阶段的战场
跑完这些测试,我对Flash模型这件事,有了新的感受。
过去大家爱比峰值智能、都想要小红花:谁的模型在benchmark上分数高、谁排第一,谁就有面子。
但那个模型封神榜逻辑,正在慢慢失效。
benchmark越来越饱和了,现实里任务的复杂度,又远远超出benchmark的覆盖范围。
下个阶段的竞争,大概不会看谁在某个单项测试上多考两分。
还是要看谁能以更高效的方式,完成实打实的生产级任务。
![]()
阶跃星辰他们,把这个叫做「Agent效率」。
我觉得这个词,抓得挺妙。
Agent效率,不是单一的指标,它是速度、智能、成本、任务完成率、开发体验、可控性的综合。
一个模型可能跑分不是最高,但如果它能在更少的轮次里完成一个复杂任务,能在更低延迟下支撑高频调用,能让开发者在一天内搭出一个可用的Agent,不再用花一周去调试各种模块……
那它的实际价值,可能远超一个跑分更高、用起来费劲的模型。
Step 3.7 Flash走的是「轻快小美」路线。
198B的MoE架构,约11B激活参数,最高生成速度400 TPS。
![]()
GitHub地址:https://github.com/stepfun-ai/Step-3.7-Flash
看着肯定不如那些大体量模型性感,但实际跑Agent任务的时候,速度快、效果不差。
而且它在编程和工程任务上的one-shot完成率也有明显提升。
多轮调用下来,体感的顺滑程度,是那些「重模型」给不了的;甚至衬的个别家,都有点「傻大笨粗」了。
![]()
我只觉得,模型不需要在所有维度上,都最强。
它只需要在一些关键维度上,足够好,并且这些维度,恰好对上真实生产任务中很痛的痛点。
Step 3.7 Flash是一个让我觉得,接上以后,能提供情绪价值的模型。
它不完美,但在那些真正决定Agent能否落地的维度上,它做了很多清醒的判断和取舍。
有丰富的框架适配,能手机操作,干起活来轻盈不拖沓,还方便好上手。
![]()
Step 3.7 Flash的很多选择,都在降低开发者的负担,也在提升Agent效率。
这些都让我觉得,Flash模型,不再只是旗舰模型的替代品了。
随着Agent能力增强,真实任务,正在变得更加多轮、工具密集,也朝着上下文密集、搜索驱动、多模态去发展。
在更适合Agent的方向上,我觉得Step 3.7 Flash开了个好头。
现在便宜,以后可能会涨价,建议早去玩。
![]()
点开不亏
https://static.stepfun.com/blog/step-3.7-flash/
![]()