3秒克隆声音，10种语言随便读，通义千问3 TTS重磅上线

2025-12-25

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

阿里巴巴通义千问团队宣布对Qwen3的语音能力全线升级。这次不是小修小补，是直接把语音这件事，从能听懂推进到了像活人。

克隆语音只需要3秒，并且支持中文、英文、德文、意大利文、葡萄牙文、西班牙文等10种语言，功能超强。

以前用 AI 语音，总觉得别扭，要么语调平得像念经，要么断句奇怪，一听就是机器。但 Qwen3的 TTS 完全不一样，它不用先分析文本再建模，直接一步把文字变成语音，延迟低了很多，关键是自然度拉满。

而且切换语种特别丝滑，不用换模型，一段文字里混着几种语言都能读得顺顺的。最让我惊喜的是它懂上下文，看到问号会自动上扬尾音，感叹号就带着情绪，就连逗号和句号的停顿都和真人说话差不多，有那种自然的呼吸感，不是硬邦邦的断句。

比如读一段散文，轻柔的地方会放轻语气，激昂的部分会提气，完全不像机器在朗读，更像有人在你耳边讲故事。

例如，展现出悲苦沙哑的声音质感,语速偏慢,情绪浓烈且带有哭腔,以标准普通话缓慢诉说,情感强烈,语调哀怨高亢,音高起伏大。

大家感受一下下面这个展示视频。

声音克隆绝对是这次的王牌功能，本来以为得要很长的音频素材，结果试了下，就用手机录了 3 秒的日常说话，“今天天气不错，适合出门散步”，上传之后没多久，系统就复刻出我的声音了。

最绝的是，它不只是模仿音色，连我说话的小习惯、轻微的语气起伏都还原得很像。而且还能跨语种，我用中文语音克隆出来的声音，读英文诗居然也很自然，没有那种生硬的翻译腔，还保留着我自己的说话感觉。

这里必须说下隐私问题，毕竟是自己的声纹，大家肯定担心安全。Qwen3 是在自己的设备上处理音频，只提取声音特征，不存原始音频，也不会保留生物特征数据，还加了水印和伪造检测，这样就不怕技术被滥用，用着也放心。

如果说克隆是还原已有声音，那声音设计就是创造全新声音，这个功能对内容创作者来说简直是宝藏。

它有个可视化的编辑器，用滑块就能调声音的高低、快慢、轻重，还有明亮度和气声比例，调一下就能实时听到效果，不用等半天。

比如想做儿童故事音频，就把声音调得高一点、慢一点，再加点气声，立马就变得活泼可爱；想做新闻播报，就调得平稳有力，明亮度拉高，专业感就出来了。

而且还能叠加风格，选一个基础音色，再套上深夜电台、动画角色这种预设模板，或者上传一段喜欢的风格语音，系统就会融合出专属的声音。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。