31k star!微软开源语音模型、一次处理60分钟,支持50多种语言

2026-03-31

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

目前市面上处理、转换、合成语音的工具不少,但好用又不怎么收费的却不多。

今天介绍一个曾拿下Github每日最佳,微软开源的很强音频模型VibeVoice

一次性可以处理60分钟的录音,语音识别覆盖了50多种主流语言,目前已超过31000星。

开源地址:https://github.com/microsoft/VibeVoice

VibeVoice第一个比较厉害的就是语音转文字能力。一般的语音识别工具,处理长音频都喜欢把录音切成一小段一小段来识别,这就好比你看书的时候每页只看一句话就翻页,中间的逻辑完全接不上。

VibeVoice完全不这么干,它一口气就能吃下长达60分钟的连续音频,从头到尾一次性处理完。

这意味着不管你的录音有多长,说话人是谁,什么时候说的,说了什么,它全都能给你整整齐齐地标注出来。这个功能对需要整理会议纪要、采访稿、播客文稿的人来说很好用。

第二个要重点夸的是自定义热词功能。很多时候我们做语音识别,最怕的就是遇到专业术语或者人名地名,因为这些词不在模型的标准词库里,AI就瞎猜,结果出来一堆乱码。

VibeVoice允许你提前告诉它一些关键词,比如你正在处理一篇医疗领域的录音,你就把专业术语提前喂给它,它会优先往这些词上靠,识别准确率立马就能上去一大截。

用他们官方的说法叫用户自定义上下文,本质上就是让AI提前预习一下你的作业。

还一个比较强的就是长文本语音合成能力。平时我们接触的文字转语音,基本上都是一句话生成几秒钟的音频,听感也就那样。

VibeVoice能一次性把90分钟的文本转成语音,中间不需要任何停顿拼接,而且读出来的声音连贯自然,情感起伏也很到位。

更绝的是最多能同时支持四个不同的说话角色,四个人轮流发言那种对话式的音频也能直接生成。

这个就特别适合做有声书、播客、访谈节目的配音,不用再一个角色一个角色去录了。

不过这里要特别提一嘴,因为微软发现有人滥用这个合成功能,出于负责任的考虑,他们已经把这个模型代码从GitHub仓库里撤回了

目前代码里主要保留了语音识别和流式合成的部分。如果你确实想体验刚才说的长文本配音或者多角色合成。不用急,它的模型权重在Hugging Face上依然可以下载拿到

它的实时流式语音合成也很牛。这个功能主要是给做对话类应用的人准备的。你像用ChatGPT那种体验,打字的同时它就在读,读得还特别流畅。

VibeVoice的实时模型支持流式文本输入,也就是说AI一边生成文字,它就一边开始念,延迟非常低。

而且它还支持好几种语言和多种风格的声音,基本上拿过来就能用在各种场景里。如果你玩过AI语音助手或者做过实时对话产品,你就知道这个功能有多重要。

VibeVoice算是目前开源语音AI领域我觉得最全面、最值得关注的框架之一了。不管你是做语音识别还是做语音合成,或者两者都需要,这个项目基本上都能覆盖你的需求。

挺适合经常要处理音频转文字的记者、律师、内容创作者,也适合做播客、有声书、对话产品开发的工程师和独立开发者。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖