2025-12-25
阿里巴巴通义千问团队宣布对Qwen3的语音能力全线升级。这次不是小修小补,是直接把语音这件事,从能听懂推进到了像活人。
克隆语音只需要3秒,并且支持中文、英文、德文、意大利文、葡萄牙文、西班牙文等10种语言,功能超强。

以前用 AI 语音,总觉得别扭,要么语调平得像念经,要么断句奇怪,一听就是机器。但 Qwen3的 TTS 完全不一样,它不用先分析文本再建模,直接一步把文字变成语音,延迟低了很多,关键是自然度拉满。
而且切换语种特别丝滑,不用换模型,一段文字里混着几种语言都能读得顺顺的。最让我惊喜的是它懂上下文,看到问号会自动上扬尾音,感叹号就带着情绪,就连逗号和句号的停顿都和真人说话差不多,有那种自然的呼吸感,不是硬邦邦的断句。
比如读一段散文,轻柔的地方会放轻语气,激昂的部分会提气,完全不像机器在朗读,更像有人在你耳边讲故事。
例如,展现出悲苦沙哑的声音质感,语速偏慢,情绪浓烈且带有哭腔,以标准普通话缓慢诉说,情感强烈,语调哀怨高亢,音高起伏大。
大家感受一下下面这个展示视频。
声音克隆绝对是这次的王牌功能,本来以为得要很长的音频素材,结果试了下,就用手机录了 3 秒的日常说话,“今天天气不错,适合出门散步”,上传之后没多久,系统就复刻出我的声音了。
最绝的是,它不只是模仿音色,连我说话的小习惯、轻微的语气起伏都还原得很像。而且还能跨语种,我用中文语音克隆出来的声音,读英文诗居然也很自然,没有那种生硬的翻译腔,还保留着我自己的说话感觉。
这里必须说下隐私问题,毕竟是自己的声纹,大家肯定担心安全。Qwen3 是在自己的设备上处理音频,只提取声音特征,不存原始音频,也不会保留生物特征数据,还加了水印和伪造检测,这样就不怕技术被滥用,用着也放心。
如果说克隆是还原已有声音,那声音设计就是创造全新声音,这个功能对内容创作者来说简直是宝藏。
它有个可视化的编辑器,用滑块就能调声音的高低、快慢、轻重,还有明亮度和气声比例,调一下就能实时听到效果,不用等半天。
比如想做儿童故事音频,就把声音调得高一点、慢一点,再加点气声,立马就变得活泼可爱;想做新闻播报,就调得平稳有力,明亮度拉高,专业感就出来了。
而且还能叠加风格,选一个基础音色,再套上深夜电台、动画角色这种预设模板,或者上传一段喜欢的风格语音,系统就会融合出专属的声音。
登录/注册后继续阅读
立即登录/注册 >