📰 正文
Hunyuan-MT 是 腾讯混元团队推出的一套 开源机器翻译大模型,目前包括两个版本:
Hunyuan-MT-7B:一个 70 亿参数的多语言翻译模型
Hunyuan-MT-Chimera-7B:一个“融合型”翻译模型,可以在推理时结合多个翻译候选,生成更优的结果
它专门为 多语言互译设计,尤其优化了 中文 ↔ 少数民族语言 的翻译。在 WMT25 国际翻译大赛中 30/31 语言方向上拿下了第一名。
解决了什么问题?
以往翻译系统对少数民族语言支持差,这套模型大幅提升了这方面的质量
在许多语言对上超越了 Google 翻译,甚至比一些比它大好几倍的AI模型还强
Hunyuan-MT 支持 33 种语言,覆盖了 中文及其少数民族语言、主流国际语言、南亚和东南亚语言、欧洲语言等。
特别强调了 中文与少数民族语言(藏语、蒙古语、维吾尔语、哈萨克语) 的双向高质量翻译。
⭐ 主要功能与特点
多语言支持
支持 33种语言的双向翻译
特别强化 中文与哈萨克语、维吾尔语、蒙古语、藏语 等少数民族语言互译
高翻译质量
在国际权威测试(WMT2025)中,30/31个语言对拿下第一
在 中文↔少数民族语言翻译上,比谷歌翻译、GPT-4.1 和 Gemini-2.5-Pro 都更好
智能理解语境
能正确处理 网络流行语、俚语、专业术语
翻译更贴近文化语境和自然表达,而不是死板的直译
创新的训练方法
采用 五阶段训练框架:预训练、面向翻译的预训练、监督微调、强化学习、弱到强融合学习
在参数规模不大的情况下(7B),依然能超越很多超大模型
开源共享
模型权重和代码开源,方便研究者和开发者使用与改进
提供少数民族语言翻译的开源方案,填补了全球翻译研究的空白
训练框架(五阶段)
通用预训练(覆盖中文、英文和112种其他语言,1.3万亿tokens,多维质量控制)
面向MT的预训练(结合单语与双语语料,借鉴RegMix确定最佳数据混合比,防止灾难性遗忘)
监督微调(SFT)(两阶段,3M平行语料+26.8万高质量语料,使用CometKiwi和GEMBA筛选)
强化学习(RL)
采用GRPO算法
奖励函数包括质量奖励(XCOMET-XXL、DeepSeek评分)、术语奖励(词对齐)、重复惩罚
弱到强RL
在推理时结合多个翻译候选,通过奖励机制融合生成更佳结果
📊 实验结果
- 基准测试表现
WMT2025 国际机器翻译大赛
在 31 个语言对里,Hunyuan-MT 拿下 30 个第一。
FLORES-200、WMT24pp、中文↔少数民族语言
Hunyuan-MT-7B 在主流翻译基准测试中超过 Google 翻译、GPT-4.1、Claude-4、Gemini-2.5-Pro 等闭源大模型。
中文↔少数民族语言 翻译:Hunyuan-MT-7B 和 Chimera-7B 比最强大模型 Gemini-2.5-Pro 高约 4.7%,比专业翻译模型高 55–110%。
- 人类评测
Hunyuan-MT-7B 平均得分:3.189(满分4)
与 Gemini-2.5-Pro (3.223)、DeepSeek-V3 (3.219) 差距极小
远超 Google 翻译 (2.344),提升约 27%
显示出即使只有 70亿参数,性能也能接近数百亿参数的闭源大模型
📌 案例分析
✅ 语境理解与文化翻译
中文网络语境
“小红薯” → 正确译为 REDnote(社交平台)
Google 误译为 sweet potatoes(红薯)
“砍一刀” → 正确译为 拼多多砍价机制
Google 直译为 “cuts”
英文俚语
“You are killing me”
Hunyuan-MT → “你真要把我笑死了!”(理解为玩笑/夸张表达)
Google → “你要杀死我了”(字面错误翻译)
✅ 专业术语翻译
医学术语
“血液疾病” → blood disorder
“尿酸性肾结石” → uric acid kidney stone
Google → 错译成 “uricidal kidney stones”
✅ 少数民族语言
哈萨克语 → 中文
Hunyuan-MT: “你担心你的丈夫不同意你这样做吗?”
Google:产生无意义句子 “不欢迎Kieuingulets吗?”
藏语 → 中文
Hunyuan-MT: “只有尊重他们,才能真正改变他们。”
Google:误译为 “只有尊重它们,才能进行改革。”
✅ Chimera-7B 的融合优势
在多个候选翻译中选择最优表达
游戏语境:正确识别 “d2” 为 Diablo II,并能自然翻译玩家交易术语
非正式语言:能恰当翻译 “no one fucking knows” → “没有人知道”,避免字面粗俗直译
体育场景:“三分” → 正确译为 three points(篮球术语),而不是 “三场比赛”
事件叙述:“汽车穿过人群” → 正确译为 sped through,而不是 drove through(避免暗示车撞人)
支持语言列表
汉语相关
中文(zh)
繁体中文(zh-Hant)
粤语(yue)
藏语(bo)
蒙古语(mn)
维吾尔语(ug)
哈萨克语(kk)
主要国际语言
英语(en)
法语(fr)
西班牙语(es)
葡萄牙语(pt)
德语(de)
意大利语(it)
俄语(ru)
阿拉伯语(ar)
日语(ja)
韩语(ko)
越南语(vi)
土耳其语(tr)
南亚 & 东南亚语言
印地语(hi)
马拉地语(mr)
泰米尔语(ta)
泰卢固语(te)
孟加拉语(bn)
古吉拉特语(gu)
乌尔都语(ur)
马来语(ms)
印度尼西亚语(id)
菲律宾语(tl)
缅甸语(my)
高棉语(km)
泰语(th)
欧洲语言
波兰语(pl)
捷克语(cs)
荷兰语(nl)
乌克兰语(uk)
希伯来语(he)
波斯语(fa)
模型下载:https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
技术报告:https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf
GitHub:https://github.com/Tencent-Hunyuan/Hunyuan-MT/
在线体验:https://hunyuan.tencent.com/modelSquare/home/list