谷歌开源1400小时高质量ASR、TTS数据集,覆盖24种非洲语言

2026-03-18

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

AI语音助手研发的人都懂,欧美语言的模型训练顺风顺水,可一碰到非洲语言就彻底卡壳,核心原因就一个没训练数据。别说大规模标注语料,就连基础测试的标准化数据都寥寥无几。

为了解决这个难题,谷歌直接开源了1400多小时的ASRTTS高质量数据WAXAL,覆盖24种撒哈拉以南非洲语言。

开源地址:https://huggingface.co/datasets/google/WAXAL

撒哈拉以南非洲有两千多种语言、13亿多人口,可因缺乏大规模高质量语音语料库,绝大多数本土语言没有成熟的ASRTTS系统,数字鸿沟格外刺眼。

更何况非洲语言本身极具特殊性,声调区分严苛、词法结构复杂,日常交流还常出现语码转换,常规语音模型根本无法适配,没有基础数据,后续的训练、评估、适配全是空谈。

此前并非没有相关的多语言语音数据集尝试,比如Common Voice众包了19000多小时录音、FLEURS覆盖102种语言,但这些资源的重心全在英语、汉语等高资源语言,非洲语言占比微乎其微。

专门针对撒哈拉以南非洲语言的数据集更是惨不忍睹,要么规模过小,要么覆盖语言极少。

TTS相关资源更是稀缺,即便表现不错的BibleTTS,也仅覆盖6种语言、80多小时数据,对模型训练而言杯水车薪。

谷歌开源的WAXALASRTTS两大数据集构成,二者定位不同、采集方式各异,却都做到了规模和质量的双重突破。

其中ASR数据集占1.7TB,覆盖19种非洲语言,拥有1250小时带转录文本的自然语音、224767个语音实例,是目前非洲语言领域天花板级别的ASR数据。

为捕捉最真实的日常口语,研发团队摒弃脚本朗读,采用图像提示法,让说话人用母语描述50多个主题的图片,引导出自然多样的表达。

录音也无需专业环境,室内、室外、办公室均可,单段时长不低于15秒,同时兼顾性别平衡和年龄分布,让模型能适配不同人群的说话特点。

转录环节由当地专业语言专家完成,按本地脚本或英文字母精准转写,且经过多轮质量检测,剔除个人信息,还附带年龄、性别、录制环境等丰富元数据,为模型训练提供多维度支撑。

TTS数据集则占99GB,覆盖17种非洲语言,拥有180小时高保真单说话人录音、17660个语音实例,相较以往稀缺的非洲TTS数据实现跨越式提升。

作为语音合成的专属数据,它全程走标准化路线,为10种核心语言打造各含108500个单词的语音平衡脚本,覆盖语言核心语音特征。

还招募72名本土配音演员,男女各36人,在专业类工作室环境完成录音,最大程度降低背景噪音,每位演员录制16小时干净剪辑音频,保证数据的高保真和统一性。

同时附带说话人ID、性别等元数据,方便研发者训练不同风格的合成模型。值得一提的是,24种语言中,部分同时拥有ASRTTS数据,部分单独配套,精准满足不同语言的研发需求。

数据规模大只是基础,分布合理才是关键,WAXAL在这一点上做到了极致。

ASR数据集按语言合理分配转录时长,林加拉语、绍纳语等均有数十甚至上百小时数据,语音实例数量形成合理梯度,无明显数据断层。

说话人年龄覆盖多阶段、性别分布均衡,避免模型出现识别偏向性,让训练出的模型在真实场景中泛化能力更强。

TTS数据集则按语言和说话人均匀分配时长,单说话人录音的风格多样性,能满足新闻播报、智能助手、有声书等不同场景的合成需求,让语音合成的效果更贴合实际使用。

其实谷歌这次开源的超大数据集,意义远不止于填补非洲语音数据的空白,更给濒临数字化消亡的非洲语言留了一条生路。

此前,非洲诸多本土语言在数字世界几乎没有存在感,年轻一代使用频率持续降低。

WAXAL让这些语言有了数字化转化的基础,研发者可基于此打造适配的语音模型,让非洲语言在智能设备、网络空间中被识别、被合成,实现真正的数字化保护。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片
点击下方
阅读原文
即刻跳转至CAIE官网,了解更多AI相关信息

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖