LTX-2.3 是 Lightricks 公司于近期(约1-2天前正式发布)推出的开源 AI 视频生成模型,是 LTX-2 系列的重大升级版。它是一个基于 Diffusion Transformer (DiT) 架构的音频-视频基础模型,能在单一模型中同时生成高保真视频和同步音频,支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V)和音频到视频等多种模式。模型完全开源(Hugging Face 提供权重),可在本地运行(尤其是 ComfyUI),也可通过 LTX API 或 LTX Studio 使用。

它被定位为“生产级开源视频引擎”,强调本地部署高一致性多模态同步,适合创作者、开发者、企业本地化部署。模型参数约 22B,支持 LoRA 快速微调(<1小时),并提供蒸馏版(distilled)、FP8 量化版和上下采样器(spatial/temporal upscaler),可实现 4K 输出。

核心能力

  • 生成模式:T2V、I2V、V2V、音频到视频(音频驱动运动、唇同步、音效)。
  • 分辨率:原生最高 1080p(含原生 9:16 竖版 1080×1920,非裁剪),配合空间上采样器可达真 4K(3840×2160)。
  • 时长与帧率:单次生成最长约 20 秒(更长可通过多阶段拼接);支持 24/48/50 FPS 行业标准帧率。
  • 音频能力:原生同步生成对话、背景音乐、音效;唇同步自然,新版音频更干净(减少伪影、掉音)。
  • 控制能力:首末帧控制、最后一帧插值、IC-LoRA(深度/姿态/边缘控制)、LoRA 风格/动作微调、复杂提示词理解(多主体、空间关系、风格指令)。
  • 技术规格
    • 架构:DiT + 重构 VAE(更高清纹理、文字、边缘)。
    • 推理步数:蒸馏版仅 8 步 + CFG=1(极快)。
    • 输入要求:分辨率 32 的倍数,帧数 8+1 的倍数。
    • 硬件:NVIDIA CUDA(推荐 12-32GB+ VRAM,优化后 8-12GB 可跑)。

与前代 LTX-2 相比,LTX-2.3 有四大核心升级:全新 VAE(细节更锐利)、增强提示词理解(4 倍大文本连接器 + 门控注意力)、图像到视频运动更自然(减少冻结/Ken Burns 效应)、音频更纯净(过滤训练数据 + 新声码器)。

亮点特性(Highlights)

  1. 真正开源 + 本地化生产级:完整权重、训练代码、ComfyUI 节点、LTX Desktop(本地视频编辑器)全部开源。无云依赖,适合隐私/企业场景(年营收 <1000 万美元免费商用)。
  2. 音视频原生同步:业内首个“单模型”完整音视频基础模型,唇同步、节奏匹配极强,被誉为“开源版 Veo 3 竞品”。
  3. 性能与效率:蒸馏 + FP8 版在 RTX 4060(8GB)上可生成 720p 视频;整体比同类开源模型(如早期 Wan)更快、更一致(10+ 秒无明显质量衰减)。
  4. 竖版原生支持:专训 9:16 数据,非横版裁剪,适合短视频/手机内容。
  5. 可扩展性强:LoRA 微调快、ComfyUI 工作流丰富、二阶段上采样(latent upscaler)轻松 4K、支持自定义音频输入。
  6. 社区与生态:ComfyUI 原生集成 + 大量示例工作流,Fal.ai、NVIDIA 优化支持。

优缺点分析

优点(Pros)

  • 免费本地运行:无订阅费,硬件够用即可无限生成;质量接近云端付费模型。
  • 速度与一致性:蒸馏版极快,20 秒长视频连贯性强(优于部分开源竞品)。
  • 音频同步领先:本地模型中音视频一体体验最佳。
  • 可控性高:ComfyUI + LoRA/IC-LoRA 让专业创作者可深度定制。
  • 硬件友好优化:FP8、权重流式加载(weight streaming)、RAM 卸载后,12GB 显卡即可实用(甚至 8GB 有工作流)。

缺点(Cons)

  • 显存需求仍较高:全精度长视频/4K 需要 24-32GB+;低配需优化(速度会打折)。
  • 音频非完美:非语音音频(音乐、音效)有时不完整或有伪影;整体音质优于前代但未达顶级云模型。
  • 提示词敏感:英文提示为主,复杂场景仍需精细调教;偶尔提示词 adherence 不完美(虽已大幅提升)。
  • 与闭源顶级模型对比:在绝对质量/一致性上,部分测试中略逊于 Kling 2.6 / Veo 3 / Runway Gen-4(但胜在开源免费 + 本地)。
  • 硬件限制:主要 NVIDIA CUDA;AMD/Apple 支持较弱;LoRA 需针对 2.3 重新训练(旧版不兼容)。

总体评价:LTX-2.3 是目前最强的开源音视频一体模型,适合追求控制权、隐私和长期迭代的用户;若追求“开箱即用最高质量”,仍可搭配云端模型使用。

ComfyUI 安装与使用(最推荐本地方式)

隐藏内容
本内容需权限查看
  • 普通用户: 1金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。