34.8K Star!AI接管电脑自动执行任务,字节爆火开源

2026-05-20

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

咱们每天多数工作都是对着电脑干着重复、枯燥的活,打开浏览器查资料填表格下订单,点了这个按钮又要点那个链接,感觉自己活脱脱就是个人肉鼠标。

介绍一个字节跳动很火的开源项目,曾经拿过github每日最佳超34800星的UI-TARS-desktop

简单来说,就是一个能让AI替你自动操作电脑和浏览器的多模态智能体,你只需要说出需求,就能直接帮你干活。

开源地址:https://github.com/bytedance/UI-TARS-desktop

其实想自动化执行日常任务,需要调试API写各种脚本,对于普通人来说门槛不低。

UI-TARS-desktop走了一条完全不同的路,AI直接看屏幕截图,像人一样识别界面上哪有按钮哪儿有输入框,然后模拟人的动作去操作。

就是有点类似加强版RPA的感觉,但在使用方面更加简单化,直接输入需求就可以。

例如,我正身处洛杉矶,预算5000美元。请帮我在缤客网上预订离机场最近的丽思卡尔顿酒店,并为我整理一份出行交通指南。

或者帮我在Priceline平台预订从圣何塞飞往纽约的最早航班,以及 9  6 日返程的最晚航班。

也能直接让UI-TARS-desktop直接操作你的电脑,请帮我打开VS Code的自动保存功能,并在设置中将自动保存操作延迟500毫秒。整体操作非常丝滑。

UI-TARS-desktop之所以这么强的自动化能力,主要是因为它内置了视觉能力。

也就是说传统自动化方案要么依赖接口要么依赖网页元素选择器,说白了就是网站得配合你才行。

UI-TARS-desktop可以像人的眼睛一样直接看懂,不管什么软件什么网站,只要人能操作AI就能操作。

说到操作浏览器,这里面的讲究还挺多。有时候你希望AI像人一样去看页面去点击,有时候又希望直接读取网页代码来精确定位某个元素,两种方式各有优缺点。

UI-TARS-desktop厉害就厉害在支持混合策略,就是视觉操作和代码解析两条腿走路,

能根据不同场景自动切换。遇到动态加载的复杂页面就用视觉方式,需要精确定位某个表单就切到代码模式,灵活得很,效率自然也跟着上去了。

确定要退出登录吗?
确定 取消
推广有奖