HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

🤖 AI总结

主题

评测智象未来HiDream-O1-Image-1.5图像生成模型的能力与架构创新。

摘要

HiDream-O1-Image-1.5模型在商用图像生成领域实现SOTA,凭借原生全模态架构在文字渲染、电商海报和分镜生成等场景表现优异,正从玩具式工具进化为生产力基础设施。

关键信息

  • 1 HiDream-O1-Image-1.5在文生图榜单上成为中国第一、全球前三。
  • 2 模型在文字渲染、电商海报、分镜生成等商用场景表现突出。
  • 3 其原生全模态架构UiT实现了多模态底层对齐,提升复杂任务稳定性。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

最近,我朋友圈里好几拨人,都在讨论一个叫HiDream-O1-Image-1.5的模型。

HiDream大家应该眼熟,这次的是智象未来(HiDream.ai)新推出的商用版图像生成模型,再次实现 SOTA。

在Artificial Analysis的文生图榜单上,已经悄悄来到了中国图像生成模型第一。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

不仅成为了评分仅次于 OpenAI 的中国大模型公司,还超越 Google Nano Banana 2、NVIDIA Cosmos 和字节跳动 Seedream 4.0 等国内外大厂的主流模型。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

半个月前,原生全模态 HiDream-O1 系列的开源模型 HiDream-O1-Image-Dev-2604,就登顶了开源模型全球第一。

没想到就在数周后,商用版也进了全球前三。

在视觉生成大模型赛道里,实力确实硬核。

今天想带大家看看除了纸面数据,还有哪些不一样。

01

会写字、懂排版、能分镜

排名是一回事,实际用起来怎么样是另一回事。

我花了小半天时间,拉着几个做设计的朋友一起上手测了测,也参考了其他技术社区的一些实测反馈。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

重点关注几个对商业应用来说最关键的维度。

首先一个是文字渲染。

这大概是所有文生图模型共同的老大难。

中英文混排容易乱码,弯曲表面上的文字容易变形,多层级信息的排版需求基本只能靠后期手修。

实测中我们给模型丢了一个运动鞋海报的任务:

主标题、副标题、品牌、亮点、产品信息,全都是模型自己排版生成。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

另外还测了一个新中式奶茶海报:要求中国古典味道,有文雅的春天的感觉。

结果它生成的,中式水墨画的风格还挺搭。

文字信息准确,产品特征也很突出。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

再来看电商海报的商用能力。

这也是最考验综合实力的场景。

产品本身的质感、场景氛围的搭建、装饰元素的点缀、营销文案的排版,都得在一个画面里自然融合。

实测中HiDream-O1-Image-1.5对多层级的中英文混排卖点把控不错,画面完整度和商业质感都比较过关。

文字不再是画面中随便贴上去的补丁,已经成了跟视觉元素融在一起的有机部分。

我画了一组小猫咖啡的电商品牌图,画面虽然简单,但是审美和质感非常好。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

分镜和多宫格生成,用的时候也让我眼前一亮,原本只想要一张图,意外收获了一整套。

一次性输出多张连续分镜图像,要求多个画面之间保持角色一致性和视觉风格统一,整体完成度也很高。

它生成的序列图像保持了较好的一致性,基本避免了传统模型在多画面叙事中常见的随机崩坏和角色走形。

这个功能对那些需要快速产出脚本视觉稿的团队来说确实挺实用,短剧分镜、漫画前期、广告脚本都能用上。

人像和动物生图的场景表现也不错。

人像方面,从魔幻光影到双人互动到人物特写,皮肤质感、服饰纹理、肢体关系和环境虚化都比较自然。

下面这个是我的提示词是:

Referring to the composition of this photo, design pictures of different birds and different models. The model’s hair color and makeup should be consistent with the color of the bird’s feathers.

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

即使面对广角、低机位、室内暖光等复杂构图,人物比例、空间透视和画面叙事也能协调。

动物生图方面,对皮毛质感、动态表现和水下折射等高难度画面的处理,真实感比较强。

卡通风格的,细节也很到位,像我画的这个小狗,就很生动。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

还有一个做IP设计的场景值得提一下。

IP形象的开发往往需要围绕同一个角色生成多角度视图和多组情绪表情,同时保持五官、发型、服饰的高度一致。

HiDream-O1-Image-1.5在这方面的表现不错,能稳定输出角色三视图,对游戏美术和动画前期来说算得上实用工具。

综合下来,模型在几个关键维度上的表现不错:

它能理解并生成包含多层级信息的复杂画面;对中英文混排和复杂排版有一定把控能力;

在多主体画面和多宫格分镜这两类传统模型较难处理的场景中,角色和场景的一致性保持了相对稳定。

对一个生图模型来说,除了画得好看,它还需要懂排版的规则、能分镜讲故事、能准确渲染复杂文字。

这些能力的提升,正在把这个领域从玩具式的灵感生成器,推向真正的生产力工具。

02原生全模态架构进入生产验证,UiT 优势持续放大

实测之后,我不禁好奇,这些能力在传统模型里很难同时做好,那这个模型到底是怎么实现的?

多年来,文生图模型的主流做法是堆参数、堆算力,模型越做越大,生成画面也越来越好看。

但有一个根深蒂固的问题始终存在:传统模型的架构存在先天局限。

具体来说,主流的文生图模型普遍采用“文本编码器+VAE(变分自编码器)+DiT(扩散Transformer)”的模块化设计。

文本有自己的tokenizer,图像和视频有各自的encoder和decoder。

模型在处理任务时,文本先被编码成一种向量,图像信息再被编码成另一种向量,然后通过交叉注意力机制把它们拼在一起。

到了文字密集排版、UI页面、多主体生成、复杂分镜这些复杂任务上,模块之间需要反复转换信息,每转换一次就损耗一点细节,造成语义偏差和画面结构不稳定。

文本编码器的输出,是一个高维语义空间中的离散向量,而图像编码器输出的,则是一个完全不同的、位于连续压缩空间中的向量。

就算花大力气通过大量端到端训练去强行弥合它们,它们之间的基础函数形态和收敛特性仍然不匹配。

这就像要你用普通话的语法去写一首地道的英文诗歌,字都认识,但合在一起总觉得隔了一层。

在长文本排版、多主体画面连续性、以及分镜叙事等复杂指令面前,传统架构就容易翻车。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

https://huggingface.co/HiDream-ai/HiDream-O1-Image

智象未来做了一件不太一样的事情。

他们从底层开始,就把图像像素、文本Token、视频体素甚至音频、动作、空间关系等原始信号映射到同一个共享表征空间里去。

没有独立的VAE,也没有单独的文本编码器,所有模态在模型的底层就完成了对齐,共用一套语言体系,用同一套Unified Transformer完成全链路的信息交互和处理。

这个设计的好处是什么?

当所有模态在模型底层真正打通之后,模型在面对复杂图文融合、多主体一致性、连续分镜叙事等复杂任务时,内部要做的跨模态对齐工作量就小了很多,因为它在一个坐标系里就能把事办了。

几位AI架构师朋友聊起这个思路的时候,有人说了一个比喻我觉得挺形象:好的架构是藏起来的,你感觉不到它的存在,用起来越顺手、越稳定,说明越称得上好的架构。

在HiDream-O1-Image-1.5上,效果很明显。

用户的每一次不错的生成体验,背后都有一个设计逻辑清晰的架构在兜底。

把不同模态的原始信号放进同一个共享空间去理解、生成和推理,这不仅仅是图像生成模型的能力升级。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

智象未来CTO姚霆,有一个形象的描述:

所有模态从初始阶段就像青梅竹马一起成长,在底层彻底打通之后,模型就能走向Any to Any,即任意输入支持任意输出。

这也恰好是世界模型所需要的基础能力:在统一架构中理解、生成并预测现实世界的不同状态。

智象未来创始人梅涛,在之前的公开演讲中也有过一段表述,大意是目前很多多模态大模型本质上是单模态拼接。

训练的时候看起来还行,一上复杂任务就开始互相打架。

而智象未来原生全模态从一开始就把物理定律、空间关系、因果逻辑刻进模型里,它能理解世界、推理世界,而不只是被动地生成内容。

03从图像生成到世界模型,我很期待

还是把镜头拉回到行业视角。

HiDream-O1-Image-1.5的快速进阶,让我看到一个趋势:

文生图赛道的竞争壁垒,正在从拼参数堆算力,过渡到比谁能让模型真正理解物理世界、具备稳定输出能力的新阶段。

图像模型不再是一个抽卡式碰运气的玩具,它必须具备面向真实世界的理解力、推理力与一致性。

智象未来他们围绕模型+智能体的双轮驱动战略,搭建了一整套产品矩阵。

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

商业营销智能体HiBurst已经是TikTok官方TOP5服务商,年生产电商营销视频超百万条,覆盖跨境电商、内容营销等场景。

影视创作智能体帧赞已累计制作短漫剧超5000分钟,入驻专业团队超千家。

社媒创作智能体vivago覆盖100多个国家和地区,用户数超过4000万。

从单张图像生成的入口到连续世界建模,构建下一代内容生产与智能交互的基础设施,这条路,走得通。

一家中国的创业公司,能在视觉生成的核心赛道上拿出这样的技术方案和产品矩阵,值得多看一眼。

通过以下链接体验HiDream-O1-Image-1.5 :

https://vivago.ai/

https://hiharness.ai/

开源模型HiDream-O1-Image

下载地址:GitHub:https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image

HiDream-O1-Image-1.5 大模型破纪录,但我的惊喜不止于此

© 版权声明

相关文章