谷歌开源全球最强翻译模型：支持55种语言，兼容手机、平板

2026-01-16

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今天凌晨1点，谷歌DeepMind宣布开源基于Gemma3的最新翻译大模型TranslateGemma。

它支持全球55种主流语言，并且有40亿、120亿和270亿三种参数，轻松部署在手机、平板等任何设备上。

这几年大模型发展的飞快，机器翻译水平也跟着涨，但一直有个头疼的问题，厉害的翻译模型要么闭源，要么需要超大算力，普通开发者和小团队根本用不起。

而开源模型又大多不给力，要么翻译不准，要么支持的语言少，效率还低。

谷歌就是瞄准了这个痛点，Gemma3本身已经有不错的多语言能力了，但专门做翻译还差点意思。

所以团队就想，能不能在开源的基础上，把翻译质量提上去，还不用靠堆参数规模，同时多支持点小众语言，让更多人能用得上好的翻译技术，TranslateGemma就应运而生啦。

TranslateGemma能这么能打，核心就是一套精心设计的训练体系，再加上高质量的训练数据。

首先是合成平行数据，这是解决低资源语言数据少的关键。团队用MADLAD-400语料库当基础，给每个语言对最多生成1万个合成样本。生成过程挺有意思，先按文本长度分桶，每个语言对挑100万个源文本片段，保证长短都有。

然后用Gemini2.5Flash模型给每个片段生成两个版本，一个是贪心解码的，一个是温度1.0随机采样的，再用MetricX24-QE指标挑出那些随机采样比贪心解码好很多的文本，这些文本被认为更有训练价值。

最后给这些筛选后的文本生成128个翻译样本，再挑最好的，还会做格式校验，避免出错。

而且这些合成数据分两种长度，短到单句，长到512个token的文本块，不管是日常聊天还是看长文档都能覆盖到，还额外加了30种语言对，比WMT24++基准覆盖的还全。

然后是人工生成的平行数据，有些低资源语言，合成数据还是不如人工翻译准。所以团队引入了SMOL和GATITOS两个数据集，一个覆盖123种语言。

一个覆盖170种语言，大大丰富了小众语言的训练数据，不过这部分数据只在第一阶段训练用，没参与后续的强化学习。

还有30%的通用指令遵循数据，这是从Gemma3原来的训练集里拿的。为啥要加这个？就是怕模型学太专，只懂翻译，其他指令都不会响应了，加了这个能保持模型的通用性，不至于变成只会翻译的“偏科生”。

为了让TranslateGemma获得更强性能，谷歌还加入了强化学习。在第一阶段训练好的模型基础上，用了一套多指标的奖励模型，引导模型生成更符合人类预期的翻译结果。

这套奖励模型有五个核心部分，各管一摊。MetricX-24-XXL-QE负责整体质量打分，得分越低越好，范围0到25，为了适配奖励机制，团队把它改成了5.0减原始得分，这样分越高说明翻译越好，而且不用参考译文，直接看源文本和候选译文就行。

Gemma-AutoMQM-QE更细致，能逐词标注错误，比如哪里误译了、哪里漏译了，同样不用参考译文。ChrF是看词汇重叠度的，需要参考译文，为了和其他指标尺度统一，得分翻倍处理。

还有个自然度自动评估器，专门挑那些读起来不自然、不像母语者说的话的片段，进行惩罚，还会排除因为源文本本身不自然导致的问题。

最后还有个通用奖励模型，保证翻译结果不仅准确自然，还符合基本的语言逻辑和指令要求。

算法上也有巧思，团队把序列级奖励和token级奖励结合起来计算优势，再做批次归一化。

简单来说，就是不仅看整个译文的质量，还关注每个词的表现，这样能更精准地引导模型优化，训练效率也更高。

为了测试TranslateGemma性能，谷歌在文本翻译自动评估、人工评估、图像翻译评估三个领域进行了深度评测，结果都非常好。

自动评估用了WMT24++基准数据集，靠MetricX和Comet22两个指标打分。MetricX得分越低错误越少，Comet22得分越高质量越好。

三个参数版本的TranslateGemma都有明显提升：27B版本MetricX从4.04降到3.09，降幅23.5%，Comet22从83.1升到84.4；

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。