Github今天最热门开源：一行命令搞定STT、TTS，语音识别支持99种语言

2026-01-26

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

现在AI语音很火，各种语音AI助手遍地开花。但作为开发者，你是不是经常遇到这些让人抓狂的情况，想做TTS文本转语音，结果安装个OpenAI Whisper都要折腾半天。

想用自己的Mac训练语音模型，却因为依赖一堆CPU框架慢得像蜗牛，想集成语音功能到iOS或者macOS应用，却找不到合适的原生解决方案。

为大家介绍Github今天最热门的开源MLX-Audio来解决这个难题。

开源地址：https://github.com/Blaizzy/mlx-audio

MLX-Audio是一个专门为AppleSilicon打造的全能语音处理库，就像你的Mac上有了一位随身语音魔法师，能把文本转成语音、把语音转成文本，甚至直接进行语音到语音的转换，所有这些操作都在Apple的MLX框架上运行，完美榨干M1、M2、M3、M4芯片的性能。

让你的Mac能像超级计算机一样处理语音任务，高效快速，全部在本地运行，隐私安全有保障。

MLX-Audio最核心的能力是三合一语音引擎，也就是大家常说的TTS、STT和STS，TTS可以把文字变成高质量的语音，支持多种语言和口音，STT能把语音转录成文字，支持99种以上的语言。

STS则可以直接实现语音到语音的转换，比如翻译或者变声，你不用再东拼西凑找好几个不同的工具了，一个库就能搞定所有语音需求，减少依赖也降低了项目复杂度。

更重要的是针对Apple Silicon做了极致优化，推理速度专门针对M系列芯片调校，还支持量化模型从3bit到8bit，能进一步压缩内存占用。

甚至提供原生的Swift包，可以直接集成到iOS或者macOS应用里，实际用起来速度能提升5—10倍，以前跑一个小时的任务现在可能10分钟就搞定了，而且全部在本地运行，数据根本不会离开你的设备，隐私百分百安全。

模型生态也特别丰富，TTS方面有Kokoro这种带54种预设声音的模型，还支持阿里巴巴的Qwen3-TTS多模型支持以及OuteTTS等等。

STT有大家熟悉的Whisper、Parakeet、VibeVoice-ASR，STS则有SAM-Audio声源分离和Liquid2.5-Audio等。

你不需要自己从头训练模型，拿来就能用，而且模型还会持续更新，总有最新最厉害的选择。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。