📰 正文
有人把 Qwen3.5-35B-A3B 的安全拒绝机制给拆了,做了一个完全不拒绝的版本。
测了465个通常会被模型拒绝的提示词,拒绝次数:0。
模型名字叫 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive,挂在 HuggingFace 上,GGUF 格式,llama.cpp、LM Studio、Jan 都能直接跑。
先说清楚这是什么,再说怎么跑,最后说说我的看法。
这个模型是什么
Qwen3.5-35B-A3B 是阿里通义千问今年 2 月发布的最新模型,总参数 350 亿,但实际每次推理只激活约 30 亿参数(MoE 架构,256 个专家模块里每次只调用 8 个)。
这意味着一个 350 亿参数的模型,跑起来的资源消耗接近一个 30 亿参数的小模型。阿里官方的说法是:只用 30 亿激活参数,就超过了上一代 2350 亿参数的 Qwen3-235B。
原版模型本身就很强:
MMLU-Pro 85.3,GPQA Diamond 84.2
SWE-bench 69.2(代码能力)
支持文本、图片、视频多模态
原生 262K 上下文,扩展到 100 万
支持 201 种语言
HauhauCS 做的事情是在这个底座上,用一种叫"abliteration"的技术,把模型的拒绝机制移除了。
通过识别和移除模型中负责"拒绝回答"的方向向量来实现的,不需要重新训练,不改数据集,不影响模型的原有能力。
模型 100% 保留了原始作者的设计意图,只是没有了拒绝。偶尔可能会在回答末尾附一句免责声明,那是基础模型训练时烤进去的,不算拒绝,完整内容都会生成。
这个版本叫 Aggressive(激进版),意思是完全解锁,不留任何安全护栏。
什么配置能跑 一张 4090 就够
虽然每次推理只激活 3B 参数,但整个 35B 模型都得加载到显存或内存里。所以硬件门槛看的是 GGUF 文件大小加上下文开销。
RTX 4090(24GB 显存)
这是目前最主流的本地推理显卡。推荐跑 Q4_K_M 量化,文件 20GB,加上上下文开销刚好能塞进 24GB。质量和速度的平衡点。如果上下文开很长(比如 128K),显存可能不够,需要把一部分层卸载到 CPU。
Mac M系列
Mac 跑 MoE 模型其实很合适,统一内存架构没有 CPU 和 GPU 之间搬数据的瓶颈。36GB 统一内存可以跑 Q4_K_M 到 Q5_K_M。64GB 以上可以直接跑 Q8_0 甚至 BF16 全精度。
纯 CPU
没独显也能跑,只要内存够。64GB 内存可以跑 Q8_0。速度会比 GPU 慢,但 MoE 模型在 CPU 上表现比同体量的 dense 模型好,因为每次只算 3B 参数。
最低门槛
16GB 显存跑 IQ2_M(11GB),能用但质量有损失。
完整的量化选择:
所有量化版本都用了 imatrix(重要性矩阵)生成,尽量减少去审查后权重的量化损失。
怎么跑
用 llama.cpp 最简单:
# 纯文本
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
--jinja -c 131072 -ngl 99
# 带视觉(需要额外下载 mmproj 文件)
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
--mmproj mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
--jinja -c 131072 -ngl 99
–jinja 是必须加的,不加的话聊天模板会出问题。-c 131072 是 128K 上下文,作者建议至少开这么大才能保留思考能力。-ngl 99 是把所有层都放到 GPU 上。
LM Studio、Jan 这些图形界面工具也能直接加载 GGUF 文件,拖进去就行。LM Studio 里参数列可能会显示 256x2.6B 而不是 35B-A3B,这是元数据的显示问题,不影响实际运行。
官方推荐的采样参数:
思考模式(默认):temperature=1.0,top_p=0.95,top_k=20,presence_penalty=1.5
写代码等精确任务:temperature=0.6,top_p=0.95,top_k=20
非思考模式:temperature=0.7,top_p=0.8,top_k=20
HuggingFace 模型页 | Qwen3.5-35B-A3B 官方模型卡