项目概述
L2P 是一个高效的像素空间扩散模型迁移框架,旨在以极低的计算开销和数据需求,实现高质量的端到端像素空间图像生成。
核心特点与创新点
- 迁移范式:L2P 直接利用预训练的潜在扩散模型(LDM)中丰富的知识,将其迁移至像素空间,从而避免了从零开始训练所需的海量计算资源和数据。
- 技术方案:
- 舍弃 VAE:移除了变分自编码器(VAE),消除了内存瓶颈,从而支持生成原生 4K 超高分辨率图像。
- 大块标记化 (Patch Tokenization):采用大块标记化处理。
- 冻结机制:通过冻结源 LDM 的中间层,仅训练浅层来学习从潜在空间到像素空间的转换,从而大幅降低训练难度。
- 高效训练:
- 仅使用 LDM 生成的合成图像作为训练数据,无需收集真实数据。
- 仅需 8 个 GPU 即可完成训练。
- 训练开销可忽略不计,且能够快速收敛。
性能表现
- 计算效率:在实现高质量生成的同时,具备极高的推理效率(例如 4K 分辨率下的单步推理速度比源 LDM 快 97.67%)。
- 生成质量:在 DPG-Bench 上的性能与源 LDM 相当,在 GenEval 上的性能达到了 93%。
- 功能扩展:支持零帧(Zero-shot)8K 超分辨率外推。
研究团队
该项目由南京大学、腾讯优图实验室、海南标和 Weess Gmbh 的研究人员共同完成。
简而言之,L2P 是一项旨在**“降低门槛、提升效率”**的创新技术,让普通的消费级硬件也能高效地生成高质量、超高分辨率的像素级图像。
项目地址:https://nju-pcalab.github.io/projects/L2P/
模型地址:https://huggingface.co/zhen-nan/L2P
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)