2026-04-11
想写段文案打开ChatGPT,弄张配图切到Midjourney,做个视频又得打开Runway,再弄点背景音乐这那的,整个流程相当麻烦。
为了帮助大家减少这些麻烦的流程,不用频繁切网页、客户端,MiniMax刚刚开源了一个利器MMX-CLI。

开源地址:https://github.com/MiniMax-AI/cli
简单来说,MMX-CLI一个装在终端里的万能AI遥控器。你不用打开浏览器,不用登录各种网站,只要在终端里敲几个命令,就能调用文字对话、图片生成、视频创作、语音合成、音乐制作这些能力。
文字对话这块算是基本功。你可以用它做多轮对话,支持系统提示词来设定角色,让它当编程助手、文案专家或者翻译官都行。
输出还支持流式传输和结构化的JSON格式,方便你把结果直接喂给其他程序。
其实这个功能单看不算特别亮眼,但最厉害的地方是跟后续所有能力无缝衔接。
你让它写好一段文案,紧接着就能拿这段文案去生成配图或者语音,中间完全不需要复制粘贴。
图片生成这块就很好用了。你只需要用大白话描述你想要的画面,它就能帮你生成出来。支持批量生成和画幅比例控制,16比9的横图、1比1的方图随便选。
生成的图片还能指定输出目录,不会搞得桌面一团糟。做自媒体内容的时候这个功能特别实在,写完文章顺手就能出几张配图,以前要切两个软件才能搞定的事现在一条命令就完了。

视频生成功能不是简单地把图片拼成视频,而是根据你的文字描述异步生成完整的视频内容。你提交一个任务,随时可以查进度,生成完毕直接下载。
语音合成这块支持超过30种声音风格,语速也能调节。同时支持流式播放,边生成边听,不用等全部合成完才开始。
如果你做播客或者视频配音,这个功能真的能省下不少找配音演员的钱和时间。
音乐生成方面,你可以用一段文字描述来生成音乐,支持自动生成歌词,也支持你自己写歌词塞进去。只要纯音乐不要人声也行。
甚至还能根据你提供的一首参考音频,生成一个翻唱版本,风格可以自己定。

图像理解功能可以分析你上传的图片,你问它什么它答什么,比如这张照片里什么品种的猫、画面里有几辆车之类的。
网页搜索功能则直接在终端里帮你查信息,结果还能输出JSON格式方便程序处理。
如果你平时对多模态AI应用频率特别高,可以把MMX-CLI直接嵌入到自己的工作流中。
比如用curl抓网页内容,管道传给mmx做分析,再把结果存到文件里。因为它的输入输出都支持标准管道和文件读写,所以组合起来几乎没有限制。
还有一个比较硬核的点,专门为AI智能体做了量身定制适配,像OpenClaw、Cursor、Claude Code这些工具都可以直接加载它的能力包,极大增强了智能体的能力。
对于内容创作者、开发者,或者任何一个想提高AI使用效率的人来说可以试试这个。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

完 谢谢观看
