不用切网页了！MiniMax刚开源万能AI遥控器，文本、图像、视频、音乐全包圆

2026-04-11

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

想写段文案打开ChatGPT，弄张配图切到Midjourney，做个视频又得打开Runway，再弄点背景音乐这那的，整个流程相当麻烦。

为了帮助大家减少这些麻烦的流程，不用频繁切网页、客户端，MiniMax刚刚开源了一个利器MMX-CLI。

开源地址：https://github.com/MiniMax-AI/cli

简单来说，MMX-CLI一个装在终端里的万能AI遥控器。你不用打开浏览器，不用登录各种网站，只要在终端里敲几个命令，就能调用文字对话、图片生成、视频创作、语音合成、音乐制作这些能力。

文字对话这块算是基本功。你可以用它做多轮对话，支持系统提示词来设定角色，让它当编程助手、文案专家或者翻译官都行。

输出还支持流式传输和结构化的JSON格式，方便你把结果直接喂给其他程序。

其实这个功能单看不算特别亮眼，但最厉害的地方是跟后续所有能力无缝衔接。

你让它写好一段文案，紧接着就能拿这段文案去生成配图或者语音，中间完全不需要复制粘贴。

图片生成这块就很好用了。你只需要用大白话描述你想要的画面，它就能帮你生成出来。支持批量生成和画幅比例控制，16比9的横图、1比1的方图随便选。

生成的图片还能指定输出目录，不会搞得桌面一团糟。做自媒体内容的时候这个功能特别实在，写完文章顺手就能出几张配图，以前要切两个软件才能搞定的事现在一条命令就完了。

视频生成功能不是简单地把图片拼成视频，而是根据你的文字描述异步生成完整的视频内容。你提交一个任务，随时可以查进度，生成完毕直接下载。

语音合成这块支持超过30种声音风格，语速也能调节。同时支持流式播放，边生成边听，不用等全部合成完才开始。

如果你做播客或者视频配音，这个功能真的能省下不少找配音演员的钱和时间。

音乐生成方面，你可以用一段文字描述来生成音乐，支持自动生成歌词，也支持你自己写歌词塞进去。只要纯音乐不要人声也行。

甚至还能根据你提供的一首参考音频，生成一个翻唱版本，风格可以自己定。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。