项目概述

L2P 是一个高效的像素空间扩散模型迁移框架,旨在以极低的计算开销和数据需求,实现高质量的端到端像素空间图像生成。

核心特点与创新点

  1. 迁移范式:L2P 直接利用预训练的潜在扩散模型(LDM)中丰富的知识,将其迁移至像素空间,从而避免了从零开始训练所需的海量计算资源和数据。
  2. 技术方案
    • 舍弃 VAE:移除了变分自编码器(VAE),消除了内存瓶颈,从而支持生成原生 4K 超高分辨率图像。
    • 大块标记化 (Patch Tokenization):采用大块标记化处理。
    • 冻结机制:通过冻结源 LDM 的中间层,仅训练浅层来学习从潜在空间到像素空间的转换,从而大幅降低训练难度。
  3. 高效训练
    • 仅使用 LDM 生成的合成图像作为训练数据,无需收集真实数据。
    • 仅需 8 个 GPU 即可完成训练。
    • 训练开销可忽略不计,且能够快速收敛。

性能表现

  • 计算效率:在实现高质量生成的同时,具备极高的推理效率(例如 4K 分辨率下的单步推理速度比源 LDM 快 97.67%)。
  • 生成质量:在 DPG-Bench 上的性能与源 LDM 相当,在 GenEval 上的性能达到了 93%。
  • 功能扩展:支持零帧(Zero-shot)8K 超分辨率外推。

研究团队

该项目由南京大学、腾讯优图实验室、海南标和 Weess Gmbh 的研究人员共同完成。

简而言之,L2P 是一项旨在**“降低门槛、提升效率”**的创新技术,让普通的消费级硬件也能高效地生成高质量、超高分辨率的像素级图像。

项目地址:https://nju-pcalab.github.io/projects/L2P/

模型地址:https://huggingface.co/zhen-nan/L2P

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。