8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

网易专栏2周前发布 nxnqh
15 0 0

🤖 AI总结

主题

千问发布HappyHorse 1.0视频生成模型,通过统一Transformer架构实现高质量视频生成。

摘要

千问HappyHorse 1.0开启灰测,通过统一架构实现高质量视频生成,在叙事、空间感和风格还原上表现优异,或成行业分水岭。

关键信息

  • 1 HappyHorse 1.0采用150亿参数统一Transformer架构
  • 2 支持文生视频、图生视频,具备自然音频和精准口型
  • 3 在叙事连贯性、空间感和影视风格还原上表现优异

8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

前段时间AI圈最火的视频模型,HappyHorse 1.0,着实引起了国内外很多讨论。

视频生成赛道,新的格局,似乎正在形成。

就在身边朋友还在猜测,是否会进一步开放的时候,千问突然安静地放出了一个官方灰度测试版本。

8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

千问创作web端(c.qianwen.com)

HappyHorse 1.0,4月27日,在千问APP和千问创作Web端开启灰测,可免费体验。

测完我只想说一句话:AI视频行业的分水岭,可能真的来了。

01

镜头叙事:很真实、很有故事

视频生成模型有一个很反人类的设计,就是你永远不知道它生成的视频在第几秒会崩。

它们对时间维度和物理叙事的连续性理解不够,动作到后半段就开始发散。

就像一个人跑步,前一百米姿势标准,后一百米开始同手同脚。

HappyHorse 1.0在叙事的连贯性上,给我的感觉就是两个字:放心。

我测了一个追求现实质感的提示词:

手持相机拍摄,一个欧洲小男孩对着生日蛋糕吹蜡烛,真实感。

HappyHorse 1.0出来的结果,从头到尾,镜头的移动很自然,小男孩吹蛋糕的动作很自然流畅,每一个动作之间的过渡,都非常像拿相机拍出来的。

完全不是那种机械的镜头切换或者刻意的动作,是有叙事感的真实场景的动态。

生日歌、吹蜡烛的声音,配合的都很自然,我一开始甚至会因为音画的同步性极高,都忽视了声音的部分。

给出大段的人物独白,语言的呈现也很不错,有气口和情绪变化;输入文本,直接生成带自然音频和精准口型的视频。

在教育、电商、娱乐、新闻等场景,高质量口播视频的生成,想象空间和应用场景都挺大的。

我还测了一个电影场景:

东京街头雨夜,一个年轻女子独自打着伞走近,神情似乎有一丝哀伤。

这个提示词的难点在于,人物移步换景的镜头切换,以及有电影效果的人物微表情的质感处理,很多模型在生成这种细腻表情时,会显得比较生硬呆板。

HappyHorse 1.0处理得相当漂亮。

情绪表现很有层次,从最开始远景的木然神态,到走近以后的情绪流露,以及接下来人物表情的特写镜头,眼神的捕捉是到位的。

虽然是非常简单的一句话指令,但是完成度很高,分镜的补全和情节的推进呈现,有种导演在背后悄悄指导的错觉。

这种连贯性,靠一般量级的数据,很难训练出来。

看了技术文档才知道,HappyHorse 1.0用的是150亿参数的统一Transformer架构。

关键是它把文字理解、图像参考、视频生成和音频合成全部塞进了同一个模型里。

大多数模型是先生成无声视频,再用另一个模型配音。两个模型之间必然有信息损失,动作和声音的匹配就会出现偏差。

HappyHorse 1.0用一个模型一站式解决,等于从底层避免了这个问题。

这也是为什么它能把镜头做得这么流畅紧凑。不是后期修的,是生成的时候就流畅。

02

空间感和动作呈现:很生动

动作连贯是现在优秀视频模型的基本功,但HappyHorse 1.0有了空间感和更多复杂动作的呈现以后,让我觉得整个画面的动态质感和场景感,提升了一大截。

我尝试了一个星际穿越风格的科幻片段:

提示词是:在一个荒芜的星球上,黑猩猩伸手触碰宇航员,好奇打量。

同样的提示词,给之前另一个比较好的视频模型来生成,出来的画面像是一个固定机位架在那拍,镜头基本不动,宇航员和黑猩猩的互动很单一,没有深度感。

HappyHorse 1.0出来的画面,很有推进的节奏和细节的呈现。

镜头从全景开始,慢慢往前推,前景的石头、中景的猩猩和宇航员、背景的星球背景,三层空间的关系非常清晰。

镜头推进的时候,光影的变化是连续的,宇航员镜面头盔反射的光线也在跟着变化。

那种感觉就是,有点像真的有人扛着摄影机在现场拍摄。镜头语言是有呼吸感的,伴随着BGM里的风声。

给我的直观感受是:模型对三维世界的理解能力不错。

大多数视频生成模型其实是在二维平面上做像素预测,它们不知道什么叫做深度,什么叫做透视。

但这个科幻场景里,我看到的,是有深度信息的三维场景的投影。

猩猩和宇航员伸手触碰的动作,不像演的,不像生成的,连反光的影子里映出来的动作关系,都是正常合理的。就还挺惊喜的。

类似的,我还生成了一个人类和外星人的指尖碰撞。

空间的纵深、景观的呈现、人物的动作神态,同样很到位。

就发现HappyHorse 1.0在偏漫剧风格的呈现上,也遵循了真实电影质感的现实逻辑,不会因为是动漫就有所下降。

真人场景、幻想情景、动作交互,整体的完成度都很高。

03

经典影视风格的复刻,很戳人

说实话,看到HappyHorse 1.0在影视风格还原这块的能力时,我作为从业者是有点感慨的。

它支持老水浒、老三国那种经典国剧的画风,也能还原港式刑侦剧、王家卫、周星驰逃学威龙系列这些港式文艺/无厘头风格,甚至连古早韩剧和破产姐妹那种经典美剧的质感都能拿捏。

测试了一个上海制片厂老动画片的效果。

水墨画,老动画片,上海美术制片厂,一朵牡丹花徐徐绽放。

很像小时候看的动画片的片头,接下来似乎宝莲灯的陈香就要登场了。

荷花古装动画片,我也生成了一段。

提示词:

环境音是船桨划水的细碎声、荷叶摩擦的轻响,配以轻柔的古筝与竹笛交织的纯音乐,旋律婉转舒缓。  

我也还原了小时候特别喜欢的《三国演义》的影视风格。

提示词:

镜头扭到张飞、关羽、刘备三个人,三个人倒头睡着了

那种江湖的情绪氛围,通过视觉语言就能传达出来。人物的长对白,一句一顿,说话时的语气神态动作,都算传神。

背后的技术路径挺有意思。

模型应该不是简单地学习某个导演的画面风格,更像是建立了一个跨模态的风格理解系统。

它知道风格类型不只是调色和构图,还包括情绪表达的方式、光影使用的逻辑、还有人物动作的节奏感。

从行业的角度看,可迁移的艺术风格,肯定会带来更多更好玩的精彩作品。

以前你要做一个特定年代的怀旧风格视频,需要美术指导、摄影指导、后期调色师等多工种配合,现在一个prompt就能把视觉基调定下来。

04

使用体验:

从千问APP到千问创作网页,两个入口

我分别试了千问APP和千问创作web端两个入口,体验都不错。

千问APP端,需要升级至最新版,从首页的胶囊入口进去,找到HappyHorse 1.0模型,就可以开始生成。

8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

界面很简洁,支持文生视频和图生视频两种模式。

参数设置方面,视频分辨率可以选1080p或720p,宽高比支持16:9、9:16和1:1,时长可以选5秒、10秒或15秒。音频生成默认是开启的,也可以手动关掉。

网页版的界面和APP端不太一样,有一个通用的生成面板,也可以在工作里调用。

8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

我个人的感受是,轻度用户用千问APP就够了,免费而且方便。

重度用户或者开发者可以用网页版,因为工作流的支持意味着你可以把视频生成集成到自己的自动化流程里。

比如你想批量生成一百条短视频,写个脚本调用千问创作造点的API,输入一百个不同的提示词,然后等着收结果就行。

这种批量化的能力,对于做内容营销或者短视频矩阵的人来说,价值真的大。

05

技术本质:统一架构才是真正的护城河

作为一个做AI开发的人,我其实最关心的是技术架构。

功能可以抄,参数可以堆,但架构层面的设计是决定一个模型能走多远的核心。

大多数视频生成模型采用的是级联架构。

先生成关键帧,再插帧补全中间的动作,然后用另一个模型做超分辨率和画质增强,最后再找一个TTS模型配音。

这种架构的好处是模块化,每个模块可以单独优化。坏处是模块之间的信息损失累积,最终输出质量的天花板很低。

HappyHorse 1.0采用的是一个150亿参数的统一Transformer模型,把所有能力塞进同一个模型里。

8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

这个决策在工程上非常难,因为你需要同时优化文本理解、图像生成、时序建模、音频合成四个完全不同性质的任务。

但一旦做成了,优势就是很明显的。

动作和声音之间的同步天然就是对齐的,因为是一个模型在控制。

空间感的理解更深,因为模型在生成画面的同时也在理解场景的三维结构。

生成速度更快,因为没有模块之间的数据传递开销。

这个架构让我想起了一个类比。

早期的自动驾驶是分模块的,感知一个模块,决策一个模块,控制一个模块。

后来特斯拉做了端到端,用一个模型直接输出方向盘角度和踏板力度。

结果是端到端的方案在复杂场景下的表现完胜分模块方案。

视频生成领域正在经历同样的转变。

从级联到统一,从分模块到端到端,HappyHorse 1.0走在了这个转变的最前面。

06

过去一年,视频生成这个赛道的竞争逻辑是:谁的模型参数更大,谁的数据集更全,谁的功能列表更长,谁就是赢家。

大家比拼的是功能的有无、效果的好坏,但还没有真正落到体验上。

千问官方版本,HappyHorse 1.0终于开启灰度测试了,竞争似乎也被拉到了另一个维度。

它不跟你在功能列表上卷,什么多参考帧、什么精细控制、什么局部重绘,这些它都不强调。

它强调的是最基础的几个东西:动作稳不稳,声音真不真,空间感强不强,视频效果好不好。

这几个东西,反而是用户最在意,但是很难啃的硬骨头。

因为做功能的优先级高,出活快,效果好汇报。把动作做稳需要死磕底层架构,周期长,见效慢,还不一定做得出。

阿里选择了一条更难的路,但走通之后,护城河也最深。

可以花三个月抄一个功能,但花三年也未必能重建一个统一架构的模型。

APP上开启灰测,可以免费体验HappyHorse 1.0,对我们用户来说,特别友好,因为是大厂在用技术红利换市场先机。

对于视频生成这个行业来说,这可能就是一个分水岭。

接下来半年,可能会看到所有主流视频生成模型,竞争更加激烈,技术路线也会有转移。

但转身的速度和深度,决定了谁能留在这个牌桌上。

对我们普通用户来说,也许这些技术争论都不重要。

重要的是你现在打开千问APP免费就能试用一个世界顶级的视频生成模型。

生成速度够快,动作够稳,声音够真,叙事感够强。

这就够了。

最后,还有个好消息!

4月28日千问天「马」行空创作挑战赛将会开启。

四大AIGC视频赛道,优秀作品可以参与20万现金奖池瓜分,还会有优质创作者身份、平台积分、流量助推、线下美术馆轮展、头部时尚杂志专访等奖励。

感兴趣的朋友可以参与~

8个场景实测HappyHorse 1.0,千问⾸发灰测免费体验

© 版权声明

相关文章