📰 正文

Hunyuan-MT 是 腾讯混元团队推出的一套 开源机器翻译大模型,目前包括两个版本:

Hunyuan-MT-7B:一个 70 亿参数的多语言翻译模型

Hunyuan-MT-Chimera-7B:一个“融合型”翻译模型,可以在推理时结合多个翻译候选,生成更优的结果

它专门为 多语言互译设计,尤其优化了 中文 ↔ 少数民族语言 的翻译。在 WMT25 国际翻译大赛中 30/31 语言方向上拿下了第一名。

解决了什么问题?

以往翻译系统对少数民族语言支持差,这套模型大幅提升了这方面的质量

在许多语言对上超越了 Google 翻译,甚至比一些比它大好几倍的AI模型还强

Hunyuan-MT 支持 33 种语言,覆盖了 中文及其少数民族语言、主流国际语言、南亚和东南亚语言、欧洲语言等。

特别强调了 中文与少数民族语言(藏语、蒙古语、维吾尔语、哈萨克语) 的双向高质量翻译。

image


⭐ 主要功能与特点

多语言支持

支持 33种语言的双向翻译

特别强化 中文与哈萨克语、维吾尔语、蒙古语、藏语 等少数民族语言互译

高翻译质量

在国际权威测试(WMT2025)中,30/31个语言对拿下第一

在 中文↔少数民族语言翻译上,比谷歌翻译、GPT-4.1 和 Gemini-2.5-Pro 都更好

智能理解语境

能正确处理 网络流行语、俚语、专业术语

翻译更贴近文化语境和自然表达,而不是死板的直译

创新的训练方法

采用 五阶段训练框架:预训练、面向翻译的预训练、监督微调、强化学习、弱到强融合学习

在参数规模不大的情况下(7B),依然能超越很多超大模型

开源共享

模型权重和代码开源,方便研究者和开发者使用与改进

提供少数民族语言翻译的开源方案,填补了全球翻译研究的空白

训练框架(五阶段)

通用预训练(覆盖中文、英文和112种其他语言,1.3万亿tokens,多维质量控制)

面向MT的预训练(结合单语与双语语料,借鉴RegMix确定最佳数据混合比,防止灾难性遗忘)

监督微调(SFT)(两阶段,3M平行语料+26.8万高质量语料,使用CometKiwi和GEMBA筛选)

强化学习(RL)

采用GRPO算法

奖励函数包括质量奖励(XCOMET-XXL、DeepSeek评分)、术语奖励(词对齐)、重复惩罚

弱到强RL

在推理时结合多个翻译候选,通过奖励机制融合生成更佳结果

📊 实验结果

  1. 基准测试表现

WMT2025 国际机器翻译大赛

在 31 个语言对里,Hunyuan-MT 拿下 30 个第一。

FLORES-200、WMT24pp、中文↔少数民族语言

Hunyuan-MT-7B 在主流翻译基准测试中超过 Google 翻译、GPT-4.1、Claude-4、Gemini-2.5-Pro 等闭源大模型。

中文↔少数民族语言 翻译:Hunyuan-MT-7B 和 Chimera-7B 比最强大模型 Gemini-2.5-Pro 高约 4.7%,比专业翻译模型高 55–110%。

image

  1. 人类评测

Hunyuan-MT-7B 平均得分:3.189(满分4)

与 Gemini-2.5-Pro (3.223)、DeepSeek-V3 (3.219) 差距极小

远超 Google 翻译 (2.344),提升约 27%

显示出即使只有 70亿参数,性能也能接近数百亿参数的闭源大模型

image


📌 案例分析

✅ 语境理解与文化翻译

中文网络语境

“小红薯” → 正确译为 REDnote(社交平台)

Google 误译为 sweet potatoes(红薯)

“砍一刀” → 正确译为 拼多多砍价机制

Google 直译为 “cuts”

英文俚语

“You are killing me”

Hunyuan-MT → “你真要把我笑死了!”(理解为玩笑/夸张表达)

Google → “你要杀死我了”(字面错误翻译)

✅ 专业术语翻译

医学术语

“血液疾病” → blood disorder

“尿酸性肾结石” → uric acid kidney stone

Google → 错译成 “uricidal kidney stones”

✅ 少数民族语言

哈萨克语 → 中文

Hunyuan-MT: “你担心你的丈夫不同意你这样做吗?”

Google:产生无意义句子 “不欢迎Kieuingulets吗?”

藏语 → 中文

Hunyuan-MT: “只有尊重他们,才能真正改变他们。”

Google:误译为 “只有尊重它们,才能进行改革。”

✅ Chimera-7B 的融合优势

在多个候选翻译中选择最优表达

游戏语境:正确识别 “d2” 为 Diablo II,并能自然翻译玩家交易术语

非正式语言:能恰当翻译 “no one fucking knows” → “没有人知道”,避免字面粗俗直译

体育场景:“三分” → 正确译为 three points(篮球术语),而不是 “三场比赛”

事件叙述:“汽车穿过人群” → 正确译为 sped through,而不是 drove through(避免暗示车撞人)

支持语言列表

汉语相关

中文(zh)

繁体中文(zh-Hant)

粤语(yue)

藏语(bo)

蒙古语(mn)

维吾尔语(ug)

哈萨克语(kk)

主要国际语言

英语(en)

法语(fr)

西班牙语(es)

葡萄牙语(pt)

德语(de)

意大利语(it)

俄语(ru)

阿拉伯语(ar)

日语(ja)

韩语(ko)

越南语(vi)

土耳其语(tr)

南亚 & 东南亚语言

印地语(hi)

马拉地语(mr)

泰米尔语(ta)

泰卢固语(te)

孟加拉语(bn)

古吉拉特语(gu)

乌尔都语(ur)

马来语(ms)

印度尼西亚语(id)

菲律宾语(tl)

缅甸语(my)

高棉语(km)

泰语(th)

欧洲语言

波兰语(pl)

捷克语(cs)

荷兰语(nl)

乌克兰语(uk)

希伯来语(he)

波斯语(fa)

模型下载:https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597

技术报告:https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

GitHub:https://github.com/Tencent-Hunyuan/Hunyuan-MT/

在线体验:https://hunyuan.tencent.com/modelSquare/home/list


来源: 腾讯混元推出开源翻译大模型 在 WMT25 国际翻译大赛中 30/31 语言方向上都拿下了第一名