31k star！微软开源语音模型、一次处理60分钟，支持50多种语言

2026-03-31

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

目前市面上处理、转换、合成语音的工具不少，但好用又不怎么收费的却不多。

今天介绍一个曾拿下Github每日最佳，微软开源的很强音频模型VibeVoice。

一次性可以处理60分钟的录音，语音识别覆盖了50多种主流语言，目前已超过31000星。

开源地址：https://github.com/microsoft/VibeVoice

VibeVoice第一个比较厉害的就是语音转文字能力。一般的语音识别工具，处理长音频都喜欢把录音切成一小段一小段来识别，这就好比你看书的时候每页只看一句话就翻页，中间的逻辑完全接不上。

VibeVoice完全不这么干，它一口气就能吃下长达60分钟的连续音频，从头到尾一次性处理完。

这意味着不管你的录音有多长，说话人是谁，什么时候说的，说了什么，它全都能给你整整齐齐地标注出来。这个功能对需要整理会议纪要、采访稿、播客文稿的人来说很好用。

第二个要重点夸的是自定义热词功能。很多时候我们做语音识别，最怕的就是遇到专业术语或者人名地名，因为这些词不在模型的标准词库里，AI就瞎猜，结果出来一堆乱码。

VibeVoice允许你提前告诉它一些关键词，比如你正在处理一篇医疗领域的录音，你就把专业术语提前喂给它，它会优先往这些词上靠，识别准确率立马就能上去一大截。

用他们官方的说法叫用户自定义上下文，本质上就是让AI提前预习一下你的作业。

还一个比较强的就是长文本语音合成能力。平时我们接触的文字转语音，基本上都是一句话生成几秒钟的音频，听感也就那样。

但VibeVoice能一次性把90分钟的文本转成语音，中间不需要任何停顿拼接，而且读出来的声音连贯自然，情感起伏也很到位。

更绝的是最多能同时支持四个不同的说话角色，四个人轮流发言那种对话式的音频也能直接生成。

这个就特别适合做有声书、播客、访谈节目的配音，不用再一个角色一个角色去录了。

不过这里要特别提一嘴，因为微软发现有人滥用这个合成功能，出于负责任的考虑，他们已经把这个模型代码从GitHub仓库里撤回了。

目前代码里主要保留了语音识别和流式合成的部分。如果你确实想体验刚才说的长文本配音或者多角色合成。不用急，它的模型权重在Hugging Face上依然可以下载拿到。

它的实时流式语音合成也很牛。这个功能主要是给做对话类应用的人准备的。你像用ChatGPT那种体验，打字的同时它就在读，读得还特别流畅。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。