在视觉生成领域,自回归(Autoregressive, AR)模型长期以来一直面临着三大“大山”:分词器重构质量差超大词汇量难以采样,以及逐个词元生成的低效率。近日,字节跳动等团队推出了 BitDance,这是一个拥有 140 亿参数 的开源多模态基础模型,通过引入“二进制标记(Binary Tokens)”彻底改写了这一现状。

三大核心技术突破

BitDance 的成功核心在于其对传统自回归流水线的重构,主要通过以下三个技术创新实现:

1. 二进制视觉分词器 (Binary Visual Tokenizer)

传统离散模型常受限于有限的词库大小。BitDance 采用了**无查找量化(Lookup-free Quantization)**策略,将词汇量扩展到了惊人的 22562256 空间。

  • 高保真度: 尽管是离散分词,其重构质量(PSNR、SSIM)已能与连续型 VAE(如 SD-VAE)相媲美。
  • 压缩高效: 在下采样率为 32 的情况下,依然保持了极高的图像还原能力,有效缓解了长序列中的误差累积。

2. 二进制扩散头 (Binary Diffusion Head)

在大规模离散空间中,传统的分类预测(Categorical Prediction)会产生海量的参数负担。BitDance 别出心裁地将二进制词元嵌入到一个连续超立方体上,并使用扩散头进行“速度匹配”采样。

  • 联合建模: 它直接模拟所有位(bits)之间的相关性,避免了独立性假设,从而实现了在大规模离散空间中的高精度采样。

3. 下一块扩散 (Next-Patch Diffusion)

为了打破“逐词元”生成的速度瓶颈,BitDance 提出了“下一块(Next-Patch)”预测范式。

  • 并行加速: 它不再是一个一个词元预测,而是利用块状因果掩码(Block-wise causal mask)一次性并行生成最多 64 个词元
  • 兼顾质量: 这种方式既保留了全局的自回归结构,又通过内部并行大幅提升了吞吐量,缩小了训练与推理之间的鸿沟。

性能表现:刷新多项纪录

在实验数据上,BitDance 展示出了统治级的表现:

  • ImageNet 256×256 类别条件生成: BitDance-H 在 FID 指标上达到了 1.24,优于 LlamaGen、VAR 等主流离散自回归模型,甚至超越了许多纯扩散模型(如 DiT-XL/2)。
  • 文本转图像(T2I)基准测试: 在 DPG-Bench 测试中,BitDance 的总分为 88.28,不仅击败了 FLUX.1-Dev 和 SD3 等知名扩散模型,在自回归阵营中也领先于 Emu3 和 Janus-Pro,表现极其接近专有模型。

图像生成性能对比表

模型类型模型名称词元类型FID (↓)IS (↑)
扩散模型DiT-XL/2连续 (VAE)2.27278.2
自回归模型LlamaGen-XXL离散 (VQ)2.34253.9
自回归模型RAR-XXL离散 (VQ)1.48326.0
BitDanceBitDance-H (Ours)二进制 (LFQ)1.24304.4

总结与意义

BitDance 的出现证明了:自回归模型只要“装备”得当(二进制化+扩散头+并行预测),完全可以拥有不输于扩散模型的高清生成能力,同时具备更强的扩展性。 作为一个 14B 参数的开源模型,它为生成式 AI 社区提供了一个简单、可扩展且高效的统一框架。

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。