手机秒变AI智能体!阿里新开源封神,99.5%准确率创造世界记录

2026-01-03

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

阿里通义实验室开源了一个重磅智能体框架MAI-UI。不管是手机本地运行还是云端高性能使用都能覆盖。

MAI-UI还直接解决了现在AI跟手机、电脑界面交互的核心痛点,把自进化数据、端云协作这些黑科技揉到一起,在好几个权威测试里都刷新了世界纪录,直接把手机变成了私人AI智能体。

简单来说,MAI-UI就是能听懂人话、自己操作APP和软件的AI助手。比如你跟手机说帮我整理最近的购物订单发给家人,它不用你一步步点,自己就能打开购物APP、筛选订单、导出表格再发消息。

咱可以看看下面的实际案例,例如,可以直接帮你自动订火车票。

也可以直接帮你自动挑选、购买各种菜品。

训练AI就像教孩子,得给它好教材才行。之前很多AI学的数据集都有问题,要么指令说不清楚,要么场景太单一,甚至有23.3%的指令都是错的,教出来的AI自然不靠谱。

MAI-UI搞了个自进化的数据管道,相当于给AI建了个动态更新的优质教材库。

首先从应用手册、专家设计和开源数据里挑出高质量的种子任务,然后用大模型生成各种变体任务,比如把查今天的天气改成查这周末的天气,或者把买牛奶改成买面包

接着一边让人工在模拟器上手动操作录轨迹,一边让其他AI自动生成操作步骤,还会从失败的操作里提取有用的部分,比如AI想发邮件却找不到发送按钮,前面打开邮箱、写内容的步骤还是能用的,不会浪费。

有意思的是,会让大模型从四个角度给同一个界面元素写指令。比如一个搜索按钮,既会说点击右上角蓝色的图标,也会说点那个能搜关键词的控件

这样AI学完就能听懂各种不同的说法,不会因为你换个表达方式就懵了。而且这个数据管道是循环进化的,用模型训练出来的新数据再反过来优化模型,越练越精准。

MAI-UI用的是阿里自己的Qwen3-VL当基础模型,然后做了四个尺寸的版本。2B参数的轻量版能直接装在手机上本地运行,8B32B的版本平衡了性能和资源,235B-A22B的超大版则是云端高性能担当,不管你是想离线用还是在线用,都能找到合适的型号。

最关键的是它扩展了AI动作库。以前的AI只能点、滑、输入这些基础操作,MAI-UI还加了两个超实用的动作:一个是主动问人,比如你让它发简历给HR却没说邮箱,它会主动问“HR的邮箱是什么呀

另一个是调用工具,比如你让它对比两个小区到公司的距离,它不用自己打开地图APP一步步查,直接调用高德地图的工具接口,秒出结果。

训练的时候也分了四步走,先让AI夯实基础理解界面,再学导航操作,然后用强化学习优化决策,最后在动态环境里实战提升鲁棒性。还会给AI设置奖励和惩罚,比如操作对了给奖励,一直重复无效点击就扣分,确保它能高效完成任务。

现在很多AI要么只能在云端用,隐私容易泄露还依赖网络;要么只能在本地用,复杂任务根本搞不定。

MAI-UI搞了个原生端云协作,简单说就是平时简单的操作让手机本地的小模型搞定,遇到复杂任务或者本地模型搞不定的时候,再偷偷调用云端的大模型,而且敏感数据绝不会传到云端。

这个框架有三个核心部分:本地智能体、云端智能体和统一内存。本地的2B模型既负责日常操作,还会实时监控自己的操作有没有跑偏,比如一直点不开某个按钮就知道自己遇到问题了。

云端的大模型则专门解决难题,收到本地模型的求助后,会根据之前的操作记录快速接手。

统一内存则像个记事本,把任务指令、操作历史都记下来,确保端云切换的时候不会断档,AI不用重新开始。

测试数据显示,这个协作系统能让本地模型的性能提升33%40%的任务不用调用云端就能完成,云模型的调用量直接减少42.7%。而且遇到密码、手机号这些敏感信息时,就算本地模型搞不定,也绝不会求助云端,隐私保护拉满。

以前的AI都是在固定的静态界面上训练的,就像只会在模拟考场考试,一到真实环境遇到弹窗、APP更新换界面就慌了神。MAI-UI专门建了个能支持500多个并行环境的训练框架,让AI在动态环境里实战练兵。

这个训练环境是用Docker容器封装的,里面集成了35多个常用APP,比如社交、电商、办公软件都有,还能模拟各种突发情况,比如操作到一半弹出权限请求,或者APP界面突然更新。

AI在里面可以同时训练512个任务,遇到长步骤的复杂任务也不怕,能支持最多50步的交互。

确定要退出登录吗?
确定 取消