厉害！8G显存竟然能跑Qwen3.6-35B-A3B多模态模型？低显存配置的本地推理之王：8GB 显存（如 RTX 3070/4060 等）的部署解决方案！-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：

更多AI前沿科技资讯，请关注我们：https://aigc.douyoubuy.cn/

【closerAI ComfyUI】厉害！8G显存竟然能跑Qwen3.6-35B-A3B多模态模型？低显存配置的本地推理之王：8GB 显存（如 RTX 3070/4060 等）的部署解决方案！

大家好，我是Jimmy。这期关于本地部署大语言模型的内容。8GB 显存的部署Qwen3.6-35B-A3B解决方案！

往期中有介绍过不少解决方案：

如腾讯的【closerAI ComfyUI】本地推理的轻量级标杆视觉模型：腾讯youtu-VL，40 亿参数开启“全能视觉”轻量化新时代

qwen3的：【closerAI ComfyUI】图像与视频反推神器：Qwen3-VL，速度快又精准，复刻从此开启，电影/短剧/片段等通通搞掂

google的gemma4:【closerAI ComfyUI】太强了！Gemma 4 E4B在comfyUI中的最优解，本地化轻量级推理模型，速度、质量、稳定三重优势！生产力再度提升！

特别是google的gemma4是本地推理性价比最高的。但这次要分享的是阿里在4月份开源的Qwen3.6-35B-A3B，它是大能力”的代表作之一，尤其适合追求性价比和本地部署的用户，在编程和多模态任务上性能够强

Qwen3.6-35B-A3B 是阿里巴巴 Qwen 团队于 2026年4月发布的开源模型，是 Qwen3.6 系列的首个开源权重版本。

核心参数

架构：稀疏 MoE（Mixture-of-Experts）模型
总参数量：35B（350亿）
激活参数：3B（仅30亿，每 token 只激活这部分）
类型：原生多模态（支持文本 + 图像 + 视频输入），带 Vision Encoder
上下文长度：原生 262K（可通过 YaRN 扩展至 1M）
许可协议：Apache 2.0（完全开源，可商用）

主要亮点

极致高效的 MoE 设计：虽然总参数有 35B，但推理时只激活 3B 参数，实际算力消耗和显存占用远低于同级别稠密模型。适合本地部署（量化后可在消费级硬件上高效运行）。
智能体编程（Agentic Coding）能力突出：在仓库级代码理解、frontend 工作流、多轮工具调用等任务上大幅超越前代 Qwen3.5-35B-A3B。性能可与 Qwen3.5-27B 等更大稠密模型媲美，甚至在部分基准上接近前沿闭源模型。
强大多模态能力：视觉感知和多模态推理能力远超其激活参数规模。在多数视觉语言基准上接近或超过 Claude Sonnet 4.5，尤其在空间智能（spatial intelligence）任务上表现优秀（如 RefCOCO 92.0、ODInW13 50.8）。
思考模式创新：支持多模态思考（Thinking）和非思考两种模式。新增 preserve_thinking 等机制，能更好地保留多轮对话中的推理轨迹，显著提升 Agent 长时任务的表现（解决了“金鱼记忆”问题）。

8GB 显存的部署Qwen3.6-35B-A3B解决方案

要在 8GB 显存设备上运行 Qwen 3.6 35B（A3B 混合专家模型），核心难点在于显存容量极其紧张。但由于该模型采用 MoE（混合专家）架构，单次推理仅需激活约 3B 参数，因此通过技术手段“拆分”模型负担是可行的。

1. 核心准备

引擎：llama.cpp (强烈推荐，因为其对 MoE 卸载支持最完善)。
模型格式：GGUF。
模型版本：Qwen3.6-35B-A3B-Q4_K_M（兼顾效果与显存占用）。
多模态增强：mmproj-BF16.gguf（必须匹配模型版本，用于图像/视频处理）。

首先要去下载llama.cpp:https://github.com/ggml-org/llama.cpp/releases/tag/b9294

挑选自己设备匹配的版本下载：我的是4060ti 8G ,cuda12,windows系统：

下载解压就行。然后下载Qwen3.6-35B-A3B-Q4_K_M GGUF量化模型

可在unsloth团队的仓库上下载：https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/tree/main

下载Qwen3.6-35B-A3B-Q4_K_M 和mmproj-BF16.gguf

下载后在llama-b9294-bin-win-cuda-12.4-x64目录下新建一个模型文件夹放进去。

2. 部署关键步骤

第一步：准备运行环境

驱动更新：确保显卡驱动为最新，支持最新的 CUDA 版本。
系统内存要求：虽然显存是 8GB，但请确保你的物理内存（RAM）至少在 16GB 以上，因为部分“专家模型层”会被卸载到 RAM 中。

第二步：启动参数调优（灵魂配置）

在 Windows 中，创建一个 .bat 脚本执行以下命令（路径根据实际情况修改）：这个解决方案也是参考了“零度大佬”的配置，但是要根据自己电脑配置进行修改，如果不会可找AI助理去解决。

@echo off
chcp 65001 >nul
cd /d E:\Program Files (x86)\llama-b9294-bin-win-cuda-12.4-x64

llama-server.exe ^
 -m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
 --mmproj "models\mmproj-BF16.gguf" ^
 -ngl 20 ^
 --n-cpu-moe 999 ^
 --flash-attn on ^
 --jinja ^
 -c 8192 ^
 -t 8 ^
 -b 512 ^
 -ub 128 ^
 --cache-type-k q4_0 ^
 --cache-type-v q4_0 ^
 --host 127.0.0.1 ^
 --port 8080

pause

关键参数说明：

--n-cpu-moe 999：这是关键！它会将 MoE 架构中的专家层强制卸载到内存。
--cache-type-k q4_0 / --cache-type-v q4_0：对 KV Cache 进行量化，能节省大量显存，允许更长的上下文。
-ngl 20：允许尽可能多的层卸载到 GPU。
-t 8：设置 CPU 线程数，注意不要设太高，建议设为物理核心数，否则会抢占资源导致变慢。

基本像我设备（8G显存、16G内存）设置成这样的配置能有相当不错速度和生成质量。

将它保存成 .bat 脚本后双击打开。

打开后：

我测试了图像分析：

结果非常精准。

代码方面，我测试了让它写一个贪吃蛇的游戏：

一共用了20分钟左右。

效果如下：

录了个视频看看：

8G设备终于也拥有了一个本地最强大脑，首先得益于阿里开源，然后是社区的共同努力下，让这一切得以实现。让普通人也能在消费级的设备下用上先进的AI模型！

如果对你有帮助，请一键三连支持下我哦。谢谢。

本地算力不够怎么办？

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

LTX-23＋ＯmniNFT 图生视频应用体验地址：

https://www.runninghub.cn/ai-detail/2057046158261968897

注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点，每日登录送100点

runningHug上的无限画布，也可以使用GPT image进行生成：

它集成了多个优秀的闭源模型：

在图像与视频生成中，一个节点就能直接调用使用并生成。十分方便，且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得，速度很快。是一个不错的选择。通过注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151 注册后打开无限画面

最后几句：

如果对你有帮助，请一键三连支持下我，感谢

CloserAI AI短剧工作台（本地化解决方案）:
AI短片/短剧Agent工作台

closerAI FlowStudio本地AIGC无限画布创作工具：
CLOSERAI FlowStudio无限画布

closerAI AI绘画大师万象视界：
CLOSERAI VISION万象视界

CLOSERAI POD电商印花批量生产工作站：
https://aigc.douyoubuy.cn/?page_id=420541
印花提取：
https://aigc.douyoubuy.cn/yinhua/

以上是就是本期的分享，当然，更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：JimmyMo

更多AI前沿科技资讯，请关注我们：

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。