在视觉生成领域,自回归(Autoregressive, AR)模型长期以来一直面临着三大“大山”:分词器重构质量差、超大词汇量难以采样,以及逐个词元生成的低效率。近日,字节跳动等团队推出了 BitDance,这是一个拥有 140 亿参数 的开源多模态基础模型,通过引入“二进制标记(Binary Tokens)”彻底改写了这一现状。

三大核心技术突破
BitDance 的成功核心在于其对传统自回归流水线的重构,主要通过以下三个技术创新实现:
1. 二进制视觉分词器 (Binary Visual Tokenizer)
传统离散模型常受限于有限的词库大小。BitDance 采用了**无查找量化(Lookup-free Quantization)**策略,将词汇量扩展到了惊人的 22562256 空间。
- 高保真度: 尽管是离散分词,其重构质量(PSNR、SSIM)已能与连续型 VAE(如 SD-VAE)相媲美。
- 压缩高效: 在下采样率为 32 的情况下,依然保持了极高的图像还原能力,有效缓解了长序列中的误差累积。
2. 二进制扩散头 (Binary Diffusion Head)
在大规模离散空间中,传统的分类预测(Categorical Prediction)会产生海量的参数负担。BitDance 别出心裁地将二进制词元嵌入到一个连续超立方体上,并使用扩散头进行“速度匹配”采样。
- 联合建模: 它直接模拟所有位(bits)之间的相关性,避免了独立性假设,从而实现了在大规模离散空间中的高精度采样。
3. 下一块扩散 (Next-Patch Diffusion)
为了打破“逐词元”生成的速度瓶颈,BitDance 提出了“下一块(Next-Patch)”预测范式。
- 并行加速: 它不再是一个一个词元预测,而是利用块状因果掩码(Block-wise causal mask)一次性并行生成最多 64 个词元。
- 兼顾质量: 这种方式既保留了全局的自回归结构,又通过内部并行大幅提升了吞吐量,缩小了训练与推理之间的鸿沟。
性能表现:刷新多项纪录
在实验数据上,BitDance 展示出了统治级的表现:
- ImageNet 256×256 类别条件生成: BitDance-H 在 FID 指标上达到了 1.24,优于 LlamaGen、VAR 等主流离散自回归模型,甚至超越了许多纯扩散模型(如 DiT-XL/2)。
- 文本转图像(T2I)基准测试: 在 DPG-Bench 测试中,BitDance 的总分为 88.28,不仅击败了 FLUX.1-Dev 和 SD3 等知名扩散模型,在自回归阵营中也领先于 Emu3 和 Janus-Pro,表现极其接近专有模型。
图像生成性能对比表
| 模型类型 | 模型名称 | 词元类型 | FID (↓) | IS (↑) |
|---|---|---|---|---|
| 扩散模型 | DiT-XL/2 | 连续 (VAE) | 2.27 | 278.2 |
| 自回归模型 | LlamaGen-XXL | 离散 (VQ) | 2.34 | 253.9 |
| 自回归模型 | RAR-XXL | 离散 (VQ) | 1.48 | 326.0 |
| BitDance | BitDance-H (Ours) | 二进制 (LFQ) | 1.24 | 304.4 |
总结与意义
BitDance 的出现证明了:自回归模型只要“装备”得当(二进制化+扩散头+并行预测),完全可以拥有不输于扩散模型的高清生成能力,同时具备更强的扩展性。 作为一个 14B 参数的开源模型,它为生成式 AI 社区提供了一个简单、可扩展且高效的统一框架。
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)