HiDream-O1-Image(简称O1)是2026年5月由HiDream-ai开源的一个创新性图像生成模型,采用8B参数的Pixel-level Unified Transformer (UiT)架构。它直接在像素空间(raw pixels)上工作,无需外部VAE(变分自编码器)和独立的文本编码器(text encoder),将像素、文本和任务条件统一到单一共享token空间中。
这是一个“原生统一”(natively unified)的多任务基础模型,支持文本到图像(T2I)、指令编辑、主体驱动个性化(subject-driven personalization)、故事板生成等能力,原生支持高达2048×2048分辨率。模型还搭配一个“Reasoning-Driven Prompt Agent”(基于Gemma-4等LLM),能在生成前进行推理、布局规划和隐式知识解析。

1. 核心创新点与架构优势
- 像素级统一Transformer (UiT):传统扩散模型(如FLUX、SD系列)通常在VAE压缩的latent空间中操作,文本通过单独编码器(如T5/CLIP)处理,再通过cross-attention融合。这会导致信息丢失(尤其是细粒度细节和文本渲染)。O1直接处理RGB像素补丁,所有模态共享同一表示空间,理论上提升一致性和多模态融合。
- 无VAE、无独立文本编码器:简化了管道,减少了组件间不匹配问题,尤其利于文本渲染、复杂组合和编辑任务。
- 内置推理代理:类似DALL·E 3的prompt rewriting,但开源可本地运行(或用OpenAI兼容API)。它能解析布局、物理逻辑、文化细节等,显著提升复杂prompt的表现。
- 多任务统一:同一个检查点(checkpoint)即可处理T2I、编辑(ref_images + instruction)、个性化(多参考图像保持主体一致性)等,无需切换LoRA或适配器。
- Dev变体:蒸馏版(28 steps,CFG=0),速度更快,适合实际部署;Full版50 steps,质量更高。
MIT许可,商业友好,这是开源社区的重大利好。
2. 性能基准(官方报告 + 外部验证)
官方在多个基准上表现出色,尤其在8B规模下性价比极高:
- GenEval(组合准确性):0.90(领先FLUX.2 Dev的0.87、Qwen-Image的0.87)。
- DPG-Bench(密集prompt对齐):89.83(领先FLUX.2 Dev 87.57)。
- HPSv3(人类偏好,12类):10.37(优于许多闭源模型)。
- CVTG-2K(复杂视觉文本):0.9128(显著领先)。
- LongText-Bench(长文本,多语言):EN 0.979 / ZH 0.978(极强文本渲染能力)。
在Artificial Analysis Text-to-Image Arena中,O1(Peanut)排名第8,是当时领先的开源权重模型。
与竞品对比:
- ** vs FLUX.2 / Qwen-Image**:参数少得多(8B vs 几十B),但多项基准领先,尤其文本渲染和复杂组合。像素空间优势在文本/细节上明显。
- ** vs 闭源(如GPT Image、DALL·E)**:在某些人类偏好和文本任务上接近或匹敌,但仍可能在整体美感和一致性上有差距。
- 分辨率与效率:原生2K,无需upscaler;在4090等GPU上,FP8量化Dev版生成2K图像速度可观(社区报道~20秒)。
局限:像素空间计算密集,Full版VRAM需求较高(2K生成对硬件友好度不如latent模型)。早期社区反馈显示Dev版有时细节软、皮肤塑料感或不一致,需优化prompt/agent使用。
3. 实际使用体验与社区反馈
- 优势:文本渲染极强(多区域、多语言、长文本不易崩);prompt遵循好;编辑和个性化统一支持;推理代理让复杂场景更可靠; photorealistic 和艺术风格都有不错表现。
- 不足(早期反馈):部分用户报告Dev版输出“不如宣传”或细节不足;图像编辑有时blend/lighting不自然;生态尚不成熟(ComfyUI支持正在开发,LoRA/ControlNet等工具需时间跟进);VRAM消耗较高。
- 社区:Reddit/YouTube/HF上热度高,被视为2026年架构创新代表,但“结果混合”,需本地测试Full版或最新更新。量化版(FP8)显著降低门槛。
4. 适用场景与未来潜力
推荐使用:
- 需要强文本渲染、复杂布局、多语言的场景(海报、产品图、故事板)。
- 追求统一多任务 pipeline 的开发者/工作室。
- 本地部署、对闭源API成本敏感的用户(MIT许可)。
- 与ComfyUI等结合的进阶工作流(生成+编辑+个性化)。
不推荐(短期):极致速度优先、已有完善latent生态依赖的用户,可能仍选FLUX系列。
深度评价:O1是图像生成范式的一次有意义的“回归”——从latent简化回像素统一,赌架构与数据胜过单纯规模。它证明小模型通过创新设计能在关键弱项(文本、一致性)反超大模型,是开源社区向闭源SOTA逼近的重要一步。但它不是“万能王”:像素空间的计算代价、早期生态不成熟、以及主观质量的波动仍是现实挑战。
随着ComfyUI集成、更多量化/微调、社区LoRA的成熟,O1的潜力会进一步释放。它代表了“统一多模态Transformer”方向的探索,值得关注和实验。建议直接在HF Space试用,或本地跑Dev版+Prompt Agent,结合具体prompt迭代体验。
总体而言,HiDream-O1-Image是2026年开源图像生成领域最具架构创新性和潜力的模型之一,在效率-质量平衡上树立了新标杆,但实际落地仍需结合硬件和生态优化。未来迭代(尤其是Pro版200B+规模)和社区工具支持将决定其长期地位。
comfyUI官方提供的模型
https://huggingface.co/Comfy-Org/HiDream-O1-Image/tree/main/checkpoints
│ │ ├── hidream_o1_image_bf16.safetensors
│ │ ├── hidream_o1_image_dev_bf16.safetensors
│ │ ├── hidream_o1_image_dev_fp8_scaled.safetensors
│ │ ├── hidream_o1_image_dev_mxfp8.safetensors
│ │ ├── hidream_o1_image_fp8_scaled.safetensors
│ │ └── hidream_o1_image_mxfp8.safetensors
这么多模型怎么选择?
选择的核心逻辑主要取决于你的显卡显存 (VRAM) 以及你对生成速度的要求。我们可以从以下三个维度来拆解:
1. 版本的区别:Base vs Dev
- Base (基础版):文件名中不带
dev的。- 特点:全量模型,通常需要 50 步左右的采样(Steps),并开启 CFG 引导。
- 优点:画质上限最高,细节表现力最强。
- Dev (开发/蒸馏版):文件名中带有
dev的。- 特点:经过“蒸馏”优化,仅需 28 步左右即可出图,且通常建议将 CFG 设为 0。
- 优点:速度极快(几乎比 Base 版快一倍),显存占用也相对更友好。
2. 精度的区别:bf16 vs fp8/mxfp8
- bf16 (高精度):
- 体积:约 17-20GB。
- 显存要求:建议 24GB 显存 (如 3090/4090) 使用。显存不足会导致出图极慢或报错。
- fp8 / mxfp8 (量化版):
- 体积:约 10GB 左右。
- 显存要求:8GB 或 12GB 显存显卡的福音。画质损耗极小,但能大幅降低显存压力。
3. 量化方式的区别:fp8_scaled vs mxfp8
- fp8_scaled:
- 适用人群:NVIDIA 40 系列 (Ada Lovelace) 及 30 系列显卡用户。
- 特点:这是目前最通用的 8 位量化格式,在 40 系列显卡上有硬件加速,运行稳健。
- mxfp8 (微缩放格式):
- 适用人群:追求极致画质或拥有最新 50 系列 (Blackwell) 显卡的用户。
- 特点:它通过更智能的缩放算法保留了比普通 fp8 更多的细节。但在 40 系列及更早的显卡上,它可能需要“实时解压”运行,速度会略慢于
fp8_scaled。
KJ提供的LORA
https://huggingface.co/Kijai/hidream-O1-image_comfy/tree/main/loras
模型下载链接如下:
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

评论(0)