2026-03-31
目前市面上处理、转换、合成语音的工具不少,但好用又不怎么收费的却不多。
今天介绍一个曾拿下Github每日最佳,微软开源的很强音频模型VibeVoice。
一次性可以处理60分钟的录音,语音识别覆盖了50多种主流语言,目前已超过31000星。

开源地址:https://github.com/microsoft/VibeVoice
VibeVoice第一个比较厉害的就是语音转文字能力。一般的语音识别工具,处理长音频都喜欢把录音切成一小段一小段来识别,这就好比你看书的时候每页只看一句话就翻页,中间的逻辑完全接不上。
VibeVoice完全不这么干,它一口气就能吃下长达60分钟的连续音频,从头到尾一次性处理完。
这意味着不管你的录音有多长,说话人是谁,什么时候说的,说了什么,它全都能给你整整齐齐地标注出来。这个功能对需要整理会议纪要、采访稿、播客文稿的人来说很好用。

第二个要重点夸的是自定义热词功能。很多时候我们做语音识别,最怕的就是遇到专业术语或者人名地名,因为这些词不在模型的标准词库里,AI就瞎猜,结果出来一堆乱码。
VibeVoice允许你提前告诉它一些关键词,比如你正在处理一篇医疗领域的录音,你就把专业术语提前喂给它,它会优先往这些词上靠,识别准确率立马就能上去一大截。
用他们官方的说法叫用户自定义上下文,本质上就是让AI提前预习一下你的作业。
还一个比较强的就是长文本语音合成能力。平时我们接触的文字转语音,基本上都是一句话生成几秒钟的音频,听感也就那样。
但VibeVoice能一次性把90分钟的文本转成语音,中间不需要任何停顿拼接,而且读出来的声音连贯自然,情感起伏也很到位。

更绝的是最多能同时支持四个不同的说话角色,四个人轮流发言那种对话式的音频也能直接生成。
这个就特别适合做有声书、播客、访谈节目的配音,不用再一个角色一个角色去录了。
不过这里要特别提一嘴,因为微软发现有人滥用这个合成功能,出于负责任的考虑,他们已经把这个模型代码从GitHub仓库里撤回了。
目前代码里主要保留了语音识别和流式合成的部分。如果你确实想体验刚才说的长文本配音或者多角色合成。不用急,它的模型权重在Hugging Face上依然可以下载拿到。
它的实时流式语音合成也很牛。这个功能主要是给做对话类应用的人准备的。你像用ChatGPT那种体验,打字的同时它就在读,读得还特别流畅。
VibeVoice的实时模型支持流式文本输入,也就是说AI一边生成文字,它就一边开始念,延迟非常低。
而且它还支持好几种语言和多种风格的声音,基本上拿过来就能用在各种场景里。如果你玩过AI语音助手或者做过实时对话产品,你就知道这个功能有多重要。
VibeVoice算是目前开源语音AI领域我觉得最全面、最值得关注的框架之一了。不管你是做语音识别还是做语音合成,或者两者都需要,这个项目基本上都能覆盖你的需求。
挺适合经常要处理音频转文字的记者、律师、内容创作者,也适合做播客、有声书、对话产品开发的工程师和独立开发者。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

完 谢谢观看
