Flash模型,阶跃Step 3.7 Flash更懂Agent

🤖 AI总结

主题

阶跃星辰Step 3.7 Flash模型在Agent效率和多模态任务中的表现评测。

摘要

评测显示Step 3.7 Flash在Agent任务中速度快、完成度高,多模态和编程能力突出,是高效的生产级模型。

关键信息

  • 1 Step 3.7 Flash是面向生产级Agent的高效率Flash模型。
  • 2 模型在多模态、搜索、代码生成等任务中表现出色,完成度高。
  • 3 强调Agent效率,即速度、智能、成本等综合指标。

Flash模型,阶跃Step 3.7 Flash更懂Agent

最近一直在想一个问题。

AI模型的能力,到底该怎么衡量。

看榜单分数,看推理速度,看价格,还是说看案例效果?

数了数,过去一年差不多测过80多个模型,从闭源旗舰,到开源小尺寸,我稍微有了点类似手感的东西。

但说实话,数据指标和真实使用之间,存在一个巨大的预期偏差。

有一个大模型玩家,很低调,但是技术实力和产出效果,却是悄悄达到了有惊喜的程度。

这个模型是什么情况呢?

不卖关子了,就是阶跃星辰的Step 3.7 Flash,定位是「面向生产级Agent的高效率Flash模型」。

乍一看,说实话,概念有点绕,场景还不少。

Flash模型,阶跃Step 3.7 Flash更懂Agent

模型官网:https://static.stepfun.com/blog/step-3.7-flash/

这几天,高频用了一下,跑了几个真实场景任务,好像想明白了一件事:

我们可能一直都把Flash类模型的方向想错了。

真正Agent友好的高效率模型,其价值,正在凸显。

01一张龙珠截图,变成多模态互动游戏

直接带大家看看模型效果。

我先扔给Step 3.7 Flash的,是一张七龙珠Z的人物剧照。

画质还算清晰,图上有悟空、贝吉塔、悟饭、短笛、弗利萨、特兰克斯等十几个人物,站位分散,人物关系复杂。

Flash模型,阶跃Step 3.7 Flash更懂Agent

我写了个简单的提示词:识别这些角色,画出人物关系图谱,再做一个互动问答游戏的网页,让用户能测试自己对龙珠人物关系的了解。

轮到Step 3.7 Flash表演了:它先是处理了视觉输入。

是在推理过程中直接分析了图片,没有单独调用OCR或检测模块。

一分多钟后,挺快的,它输出每个角色的名字和位置。

基于图片视觉信息,结合自己对龙珠系列的知识,构建了一个角色关系图。

它还输出了一份结构化数据:悟空和悟饭是父子,贝吉塔和特兰克斯是父子,短笛是悟饭的师父,弗利萨与所有人为敌。

这些关系,原本提供的图片里都没有,模型是靠搜索和推理,串联起来的。

Flash模型,阶跃Step 3.7 Flash更懂Agent

不同人物角色,用颜色头像来表示,可以随意鼠标拖拽、分组,是可以连线交互的那种。

说实话,互动网页的效果,比预想稍差。

理想状态是,每个头像都是人物的真实照片,不要搞名字简写,跟一堆MM豆似的。

我心里想象的,是下面这个样子

Flash模型,阶跃Step 3.7 Flash更懂Agent

不过倒也情有可原,我拿Opus 4.7也没法一步到位,实现像生图片这么好的HTML效果。

接着,我追加了一句指令,稍微降了难度,让它设计成包含人物角色图的游戏化交互面板。

模型响应很快,判断出有些关系需要核实,主动发起了联网搜索。

特兰克斯和布玛的母子关系要不要纳入图谱?画面中的特兰克斯来自哪个时间线?

它搜了龙珠人物介绍,找到多个来源,交叉验证后决定把布玛加入图谱,并在后续问答里标注时间线差异。

最后一步是代码生成。

模型基于整理好的关系数据,输出了一份完整的HTML文件。

Flash模型,阶跃Step 3.7 Flash更懂Agent

左边是人物和名字,名字节点代表人,不同颜色的连线区分敌对、盟友、血缘。

右边是问答游戏,随机抽题,实时计分。380行代码,第一遍就能跑。

我保存成.html文件,浏览器打开,图谱正常渲染,游戏正常运作。

这次效果基本符合预期了。

Flash模型,阶跃Step 3.7 Flash更懂Agent

还多了一个折叠面板的说明文档,教你如何修改数据源。这个模型它自己加的,挺有意思。

对比另一个主流大厂的Flash模型,同样输入,它只只给我了一个静态网页。视觉理解和后续任务之间,卡壳了。

能感觉到,Step 3.7 Flash是把多模态、搜索、代码生成,串成了一条完整链路;

执行到最后一步,也没忘了一开始让干啥。

看执行过程,是比较有推理逻辑的;看结果,已经接近了一线Agent产品的表现。

02做弗兰克个人网站,第一版就能用

这个任务比较偏coding、偏工程。

我的要求是:做AI异类弗兰克的个人网站。

很具体的场景。

网站要包含个人简介、代表作列表、过往经历等等,风格要简洁专业,适配移动端。

因为很了解我自己,也做过不止一版个人网站,测这个案例,搜索质量信息排列什么的,一眼就能看出好坏。

Flash模型,阶跃Step 3.7 Flash更懂Agent

我把需求写得很随意,没有给设计稿,只说科技简洁风格,要有现代感。

Step 3.7 Flash开始规划。

它先输出了一份网站架构说明,包括页面结构、导航菜单、内容区块划分。

然后生成完整代码,HTML、CSS、JavaScript全在一个文件里。

Flash模型,阶跃Step 3.7 Flash更懂Agent

我仔细看了代码。响应式布局,手机和电脑上显示都正常。

过往经历区域,用了卡片设计,每张卡片有标题、简短描述和标签。

代码里还有一个细节。

它自己加了一个暗色模式切换按钮,用localStorage记住用户偏好,可调颜色。

这个需求我完全没有提,模型觉得个人网站应该有这个功能,自作主张加上了。挺有意思的。

我用另一个更大、更贵的国产模型,试了同样的需求。

Flash模型,阶跃Step 3.7 Flash更懂Agent

它也生成了代码,效果也还不错,就是部分元素在手机上会错位。

视觉上,大家感觉哪个更好看?

细看了下,Step 3.7 Flash的代码完成度,对比下来,是不差的,而且更快、更便宜。

虽然它参数小,但是在编程任务上做了专门优化,架构和用户体验细节上,应该也是打磨了。

第一遍给出的代码,稍改文字内容,就能直接用。

对于开发者来说,省掉的有生成时间、调试返工的时间,还有钱。

03看视频、看白板,它也能做分析

官方介绍里说多模态、视觉能力很强,能解决复杂问题。

那我得试试

传了一段手机视频,大约3秒,拍的是一个大疆pocket3。

录屏画面晃动,logo一闪而过。

Flash模型,阶跃Step 3.7 Flash更懂Agent

我直接把视频传给Step 3.7 Flash,prompt说:这是什么产品、怎么用。

模型先定位关键帧。它找到了Logo、产品特征等等。

然后模型结合这些信息做推理。

Flash模型,阶跃Step 3.7 Flash更懂Agent

这个过程只有一次API调用。

如果换传统做法,我需要先抽帧,把关键帧截出来传给视觉模型识别,再把识别结果喂给推理模型。

两个模型之间还要写代码衔接。

Step 3.7 Flash把视觉理解和推理决策合并成了一步。

我还测了一个会议记录场景。

拍一张白板照片,上面手写着一些内容表达的思维方法,字迹潦草,还有不少箭头和圈圈画画。

Flash模型,阶跃Step 3.7 Flash更懂Agent

模型直接输出了一份结构化的内容,信息梳理出来了,标注了要点和注意事项。

Flash模型,阶跃Step 3.7 Flash更懂Agent

应该没有单独跑OCR,写规则解析啥的,一次就出来结果了。

但是我还有点不满意,想用更清晰的图表,或者一页PPT来呈现。

Flash模型,阶跃Step 3.7 Flash更懂Agent

然后PPT有了:整体结构是很好的,就是有明显的错别字;

考虑到是潦草手写识别,我自己都看不太清楚白板,能做到现在的程度,已经不错了。

Step 3.7 Flash给我的感觉是,做它的工程团队,真的在生产环境里,跑过Agent任务。

就像多模态,如果是实验室测评向的就没意思了,还是得和推理长在一起,成为可用的默认能力。

多环节、长链路的执行工作,最好也一次性做到位。

就感觉阶跃模型团队,先是很知道痛点在哪,然后才把这些痛点的解决方案,内置进了模型。

说到底,模型能力不是为了跑分好看,是为了真解决问题。

04Agent效率,大概是下一阶段的战场

跑完这些测试,我对Flash模型这件事,有了新的感受。

过去大家爱比峰值智能、都想要小红花:谁的模型在benchmark上分数高、谁排第一,谁就有面子。

但那个模型封神榜逻辑,正在慢慢失效。

benchmark越来越饱和了,现实里任务的复杂度,又远远超出benchmark的覆盖范围。

下个阶段的竞争,大概不会看谁在某个单项测试上多考两分。

还是要看谁能以更高效的方式,完成实打实的生产级任务。

Flash模型,阶跃Step 3.7 Flash更懂Agent

阶跃星辰他们,把这个叫做「Agent效率」。

我觉得这个词,抓得挺妙。

Agent效率,不是单一的指标,它是速度、智能、成本、任务完成率、开发体验、可控性的综合。

一个模型可能跑分不是最高,但如果它能在更少的轮次里完成一个复杂任务,能在更低延迟下支撑高频调用,能让开发者在一天内搭出一个可用的Agent,不再用花一周去调试各种模块……

那它的实际价值,可能远超一个跑分更高、用起来费劲的模型。

Step 3.7 Flash走的是「轻快小美」路线。

198B的MoE架构,约11B激活参数,最高生成速度400 TPS。

Flash模型,阶跃Step 3.7 Flash更懂Agent

GitHub地址:https://github.com/stepfun-ai/Step-3.7-Flash

看着肯定不如那些大体量模型性感,但实际跑Agent任务的时候,速度快、效果不差。

而且它在编程和工程任务上的one-shot完成率也有明显提升。

多轮调用下来,体感的顺滑程度,是那些「重模型」给不了的;甚至衬的个别家,都有点「傻大笨粗」了。

Flash模型,阶跃Step 3.7 Flash更懂Agent

我只觉得,模型不需要在所有维度上,都最强。

它只需要在一些关键维度上,足够好,并且这些维度,恰好对上真实生产任务中很痛的痛点。

Step 3.7 Flash是一个让我觉得,接上以后,能提供情绪价值的模型。

它不完美,但在那些真正决定Agent能否落地的维度上,它做了很多清醒的判断和取舍。

有丰富的框架适配,能手机操作,干起活来轻盈不拖沓,还方便好上手。

Flash模型,阶跃Step 3.7 Flash更懂Agent

Step 3.7 Flash的很多选择,都在降低开发者的负担,也在提升Agent效率。

这些都让我觉得,Flash模型,不再只是旗舰模型的替代品了。

随着Agent能力增强,真实任务,正在变得更加多轮、工具密集,也朝着上下文密集、搜索驱动、多模态去发展。

在更适合Agent的方向上,我觉得Step 3.7 Flash开了个好头。

现在便宜,以后可能会涨价,建议早去玩。

Flash模型,阶跃Step 3.7 Flash更懂Agent

点开不亏

https://static.stepfun.com/blog/step-3.7-flash/

Flash模型,阶跃Step 3.7 Flash更懂Agent

© 版权声明

相关文章