Qwen3.5 去审查版来了 0拒绝 4090就能本地跑

📰 正文

有人把 Qwen3.5-35B-A3B 的安全拒绝机制给拆了，做了一个完全不拒绝的版本。

测了465个通常会被模型拒绝的提示词，拒绝次数：0。

模型名字叫 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive，挂在 HuggingFace 上，GGUF 格式，llama.cpp、LM Studio、Jan 都能直接跑。

先说清楚这是什么，再说怎么跑，最后说说我的看法。

这个模型是什么

Qwen3.5-35B-A3B 是阿里通义千问今年 2 月发布的最新模型，总参数 350 亿，但实际每次推理只激活约 30 亿参数（MoE 架构，256 个专家模块里每次只调用 8 个）。

这意味着一个 350 亿参数的模型，跑起来的资源消耗接近一个 30 亿参数的小模型。阿里官方的说法是：只用 30 亿激活参数，就超过了上一代 2350 亿参数的 Qwen3-235B。

原版模型本身就很强：

MMLU-Pro 85.3，GPQA Diamond 84.2

SWE-bench 69.2（代码能力）

支持文本、图片、视频多模态

原生 262K 上下文，扩展到 100 万

支持 201 种语言

HauhauCS 做的事情是在这个底座上，用一种叫"abliteration"的技术，把模型的拒绝机制移除了。

通过识别和移除模型中负责"拒绝回答"的方向向量来实现的，不需要重新训练，不改数据集，不影响模型的原有能力。

模型 100% 保留了原始作者的设计意图，只是没有了拒绝。偶尔可能会在回答末尾附一句免责声明，那是基础模型训练时烤进去的，不算拒绝，完整内容都会生成。

这个版本叫 Aggressive（激进版），意思是完全解锁，不留任何安全护栏。

什么配置能跑一张 4090 就够

虽然每次推理只激活 3B 参数，但整个 35B 模型都得加载到显存或内存里。所以硬件门槛看的是 GGUF 文件大小加上下文开销。

RTX 4090（24GB 显存）

这是目前最主流的本地推理显卡。推荐跑 Q4_K_M 量化，文件 20GB，加上上下文开销刚好能塞进 24GB。质量和速度的平衡点。如果上下文开很长（比如 128K），显存可能不够，需要把一部分层卸载到 CPU。

Mac M系列

Mac 跑 MoE 模型其实很合适，统一内存架构没有 CPU 和 GPU 之间搬数据的瓶颈。36GB 统一内存可以跑 Q4_K_M 到 Q5_K_M。64GB 以上可以直接跑 Q8_0 甚至 BF16 全精度。

纯 CPU

没独显也能跑，只要内存够。64GB 内存可以跑 Q8_0。速度会比 GPU 慢，但 MoE 模型在 CPU 上表现比同体量的 dense 模型好，因为每次只算 3B 参数。

最低门槛

16GB 显存跑 IQ2_M（11GB），能用但质量有损失。

完整的量化选择：

所有量化版本都用了 imatrix（重要性矩阵）生成，尽量减少去审查后权重的量化损失。

怎么跑

用 llama.cpp 最简单：

# 纯文本
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
  --jinja -c 131072 -ngl 99

# 带视觉（需要额外下载 mmproj 文件）
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
  --mmproj mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --jinja -c 131072 -ngl 99

–jinja 是必须加的，不加的话聊天模板会出问题。-c 131072 是 128K 上下文，作者建议至少开这么大才能保留思考能力。-ngl 99 是把所有层都放到 GPU 上。

LM Studio、Jan 这些图形界面工具也能直接加载 GGUF 文件，拖进去就行。LM Studio 里参数列可能会显示 256x2.6B 而不是 35B-A3B，这是元数据的显示问题，不影响实际运行。

官方推荐的采样参数：

思考模式（默认）：temperature=1.0，top_p=0.95，top_k=20，presence_penalty=1.5

写代码等精确任务：temperature=0.6，top_p=0.95，top_k=20

非思考模式：temperature=0.7，top_p=0.8，top_k=20

HuggingFace 模型页 | Qwen3.5-35B-A3B 官方模型卡

来源：Qwen3.5 去审查版来了 0拒绝 4090就能本地跑

📰 正文#

📰 正文