BitDance：二进制标记开启自回归生成模型的新纪元-closerAI(未授权)

在视觉生成领域，自回归（Autoregressive, AR）模型长期以来一直面临着三大“大山”：分词器重构质量差、超大词汇量难以采样，以及逐个词元生成的低效率。近日，字节跳动等团队推出了 BitDance，这是一个拥有 140 亿参数 的开源多模态基础模型，通过引入“二进制标记（Binary Tokens）”彻底改写了这一现状。

三大核心技术突破

BitDance 的成功核心在于其对传统自回归流水线的重构，主要通过以下三个技术创新实现：

1. 二进制视觉分词器 (Binary Visual Tokenizer)

传统离散模型常受限于有限的词库大小。BitDance 采用了**无查找量化（Lookup-free Quantization）**策略，将词汇量扩展到了惊人的 22562256 空间。

高保真度： 尽管是离散分词，其重构质量（PSNR、SSIM）已能与连续型 VAE（如 SD-VAE）相媲美。
压缩高效： 在下采样率为 32 的情况下，依然保持了极高的图像还原能力，有效缓解了长序列中的误差累积。

2. 二进制扩散头 (Binary Diffusion Head)

在大规模离散空间中，传统的分类预测（Categorical Prediction）会产生海量的参数负担。BitDance 别出心裁地将二进制词元嵌入到一个连续超立方体上，并使用扩散头进行“速度匹配”采样。

联合建模： 它直接模拟所有位（bits）之间的相关性，避免了独立性假设，从而实现了在大规模离散空间中的高精度采样。

3. 下一块扩散 (Next-Patch Diffusion)

为了打破“逐词元”生成的速度瓶颈，BitDance 提出了“下一块（Next-Patch）”预测范式。

并行加速： 它不再是一个一个词元预测，而是利用块状因果掩码（Block-wise causal mask）一次性并行生成最多 64 个词元。
兼顾质量： 这种方式既保留了全局的自回归结构，又通过内部并行大幅提升了吞吐量，缩小了训练与推理之间的鸿沟。

性能表现：刷新多项纪录

在实验数据上，BitDance 展示出了统治级的表现：

ImageNet 256×256 类别条件生成： BitDance-H 在 FID 指标上达到了 1.24，优于 LlamaGen、VAR 等主流离散自回归模型，甚至超越了许多纯扩散模型（如 DiT-XL/2）。
文本转图像（T2I）基准测试： 在 DPG-Bench 测试中，BitDance 的总分为 88.28，不仅击败了 FLUX.1-Dev 和 SD3 等知名扩散模型，在自回归阵营中也领先于 Emu3 和 Janus-Pro，表现极其接近专有模型。

图像生成性能对比表

模型类型	模型名称	词元类型	FID (↓)	IS (↑)
扩散模型	DiT-XL/2	连续 (VAE)	2.27	278.2
自回归模型	LlamaGen-XXL	离散 (VQ)	2.34	253.9
自回归模型	RAR-XXL	离散 (VQ)	1.48	326.0
BitDance	BitDance-H (Ours)	二进制 (LFQ)	1.24	304.4

总结与意义

BitDance 的出现证明了：自回归模型只要“装备”得当（二进制化+扩散头+并行预测），完全可以拥有不输于扩散模型的高清生成能力，同时具备更强的扩展性。 作为一个 14B 参数的开源模型，它为生成式 AI 社区提供了一个简单、可扩展且高效的统一框架。

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

BitDance：二进制标记开启自回归生成模型的新纪元

三大核心技术突破

1. 二进制视觉分词器 (Binary Visual Tokenizer)

2. 二进制扩散头 (Binary Diffusion Head)

3. 下一块扩散 (Next-Patch Diffusion)

性能表现：刷新多项纪录

图像生成性能对比表

总结与意义

评论(0)

提示：请文明发言取消回复

🚨【五一优惠】普通永久会员¥599！仅剩16个,抢完即止！

作者信息

文章展示

LTX2.3-10Eros：专门为Image-to-Video (I2V)细分高频场景进行深度优化的模型

Sulphur 2：LTX2.3无审查微调模型介绍

HiDream-O1-Image模型的深度分析

HiDream-O1-Image

特别通知

ERNIE-Red-Mix（红潮 ERNIE 版）

BitDance：二进制标记开启自回归生成模型的新纪元

三大核心技术突破

1. 二进制视觉分词器 (Binary Visual Tokenizer)

2. 二进制扩散头 (Binary Diffusion Head)

3. 下一块扩散 (Next-Patch Diffusion)

性能表现：刷新多项纪录

图像生成性能对比表

总结与意义

评论(0)

提示：请文明发言 取消回复

相关文章

🚨【五一优惠】普通永久会员¥599！仅剩16个,抢完即止！

作者信息

文章展示

提示：请文明发言取消回复