谷歌开源全球最强翻译模型:支持55种语言,兼容手机、平板

2026-01-16

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今天凌晨1点,谷歌DeepMind宣布开源基于Gemma3的最新翻译大模型TranslateGemma

它支持全球55种主流语言,并且有40亿、120亿和270亿三种参数,轻松部署在手机、平板等任何设备上。

这几年大模型发展的飞快,机器翻译水平也跟着涨,但一直有个头疼的问题,厉害的翻译模型要么闭源,要么需要超大算力,普通开发者和小团队根本用不起。

而开源模型又大多不给力,要么翻译不准,要么支持的语言少,效率还低。

谷歌就是瞄准了这个痛点,Gemma3本身已经有不错的多语言能力了,但专门做翻译还差点意思。

所以团队就想,能不能在开源的基础上,把翻译质量提上去,还不用靠堆参数规模,同时多支持点小众语言,让更多人能用得上好的翻译技术,TranslateGemma就应运而生啦。

TranslateGemma能这么能打,核心就是一套精心设计的训练体系,再加上高质量的训练数据。

首先是合成平行数据,这是解决低资源语言数据少的关键。团队用MADLAD-400语料库当基础,给每个语言对最多生成1万个合成样本。生成过程挺有意思,先按文本长度分桶,每个语言对挑100万个源文本片段,保证长短都有。

然后用Gemini2.5Flash模型给每个片段生成两个版本,一个是贪心解码的,一个是温度1.0随机采样的,再用MetricX24-QE指标挑出那些随机采样比贪心解码好很多的文本,这些文本被认为更有训练价值。

最后给这些筛选后的文本生成128个翻译样本,再挑最好的,还会做格式校验,避免出错。

而且这些合成数据分两种长度,短到单句,长到512token的文本块,不管是日常聊天还是看长文档都能覆盖到,还额外加了30种语言对,比WMT24++基准覆盖的还全

然后是人工生成的平行数据,有些低资源语言,合成数据还是不如人工翻译准。所以团队引入了SMOLGATITOS两个数据集,一个覆盖123种语言。

一个覆盖170种语言,大大丰富了小众语言的训练数据,不过这部分数据只在第一阶段训练用,没参与后续的强化学习。

还有30%的通用指令遵循数据,这是从Gemma3原来的训练集里拿的。为啥要加这个?就是怕模型学太专,只懂翻译,其他指令都不会响应了,加了这个能保持模型的通用性,不至于变成只会翻译的偏科生

为了让TranslateGemma获得更强性能,谷歌还加入了强化学习。在第一阶段训练好的模型基础上,用了一套多指标的奖励模型,引导模型生成更符合人类预期的翻译结果。

这套奖励模型有五个核心部分,各管一摊。MetricX-24-XXL-QE负责整体质量打分,得分越低越好,范围025,为了适配奖励机制,团队把它改成了5.0减原始得分,这样分越高说明翻译越好,而且不用参考译文,直接看源文本和候选译文就行。

Gemma-AutoMQM-QE更细致,能逐词标注错误,比如哪里误译了、哪里漏译了,同样不用参考译文ChrF是看词汇重叠度的,需要参考译文,为了和其他指标尺度统一,得分翻倍处理。

还有个自然度自动评估器,专门挑那些读起来不自然、不像母语者说的话的片段,进行惩罚,还会排除因为源文本本身不自然导致的问题。

最后还有个通用奖励模型,保证翻译结果不仅准确自然,还符合基本的语言逻辑和指令要求。

算法上也有巧思,团队把序列级奖励和token级奖励结合起来计算优势,再做批次归一化。

简单来说,就是不仅看整个译文的质量,还关注每个词的表现,这样能更精准地引导模型优化,训练效率也更高。

为了测试TranslateGemma性能,谷歌在文本翻译自动评估、人工评估、图像翻译评估三个领域进行了深度评测,结果都非常好。

自动评估用了WMT24++基准数据集,靠MetricXComet22两个指标打分。MetricX得分越低错误越少,Comet22得分越高质量越好。

三个参数版本的TranslateGemma都有明显提升:27B版本MetricX4.04降到3.09,降幅23.5%Comet2283.1升到84.4

确定要退出登录吗?
确定 取消
推广有奖