3秒克隆声音,10种语言随便读,通义千问3 TTS重磅上线

2025-12-25

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

阿里巴巴通义千问团队宣布对Qwen3的语音能力全线升级。这次不是小修小补,是直接把语音这件事,从能听懂推进到了像活人。

克隆语音只需要3秒,并且支持中文、英文、德文、意大利文、葡萄牙文、西班牙文等10种语言,功能超强。

以前用 AI 语音,总觉得别扭,要么语调平得像念经,要么断句奇怪,一听就是机器。但 Qwen3 TTS 完全不一样,它不用先分析文本再建模,直接一步把文字变成语音,延迟低了很多,关键是自然度拉满。

而且切换语种特别丝滑,不用换模型,一段文字里混着几种语言都能读得顺顺的。最让我惊喜的是它懂上下文,看到问号会自动上扬尾音,感叹号就带着情绪,就连逗号和句号的停顿都和真人说话差不多,有那种自然的呼吸感,不是硬邦邦的断句。

比如读一段散文,轻柔的地方会放轻语气,激昂的部分会提气,完全不像机器在朗读,更像有人在你耳边讲故事。

例如,展现出悲苦沙哑的声音质感,语速偏慢,情绪浓烈且带有哭腔,以标准普通话缓慢诉说,情感强烈,语调哀怨高亢,音高起伏大。

大家感受一下下面这个展示视频。

声音克隆绝对是这次的王牌功能,本来以为得要很长的音频素材,结果试了下,就用手机录了 3 秒的日常说话,今天天气不错,适合出门散步,上传之后没多久,系统就复刻出我的声音了。

最绝的是,它不只是模仿音色,连我说话的小习惯、轻微的语气起伏都还原得很像。而且还能跨语种,我用中文语音克隆出来的声音,读英文诗居然也很自然,没有那种生硬的翻译腔,还保留着我自己的说话感觉。

这里必须说下隐私问题,毕竟是自己的声纹,大家肯定担心安全。Qwen3 是在自己的设备上处理音频,只提取声音特征,不存原始音频,也不会保留生物特征数据,还加了水印和伪造检测,这样就不怕技术被滥用,用着也放心。

如果说克隆是还原已有声音,那声音设计就是创造全新声音,这个功能对内容创作者来说简直是宝藏。

它有个可视化的编辑器,用滑块就能调声音的高低、快慢、轻重,还有明亮度和气声比例,调一下就能实时听到效果,不用等半天。

比如想做儿童故事音频,就把声音调得高一点、慢一点,再加点气声,立马就变得活泼可爱;想做新闻播报,就调得平稳有力,明亮度拉高,专业感就出来了。

而且还能叠加风格,选一个基础音色,再套上深夜电台、动画角色这种预设模板,或者上传一段喜欢的风格语音,系统就会融合出专属的声音。

确定要退出登录吗?
确定 取消