2026-05-20
咱们每天多数工作都是对着电脑干着重复、枯燥的活,打开浏览器查资料填表格下订单,点了这个按钮又要点那个链接,感觉自己活脱脱就是个人肉鼠标。
介绍一个字节跳动很火的开源项目,曾经拿过github每日最佳超34800星的UI-TARS-desktop。
简单来说,就是一个能让AI替你自动操作电脑和浏览器的多模态智能体,你只需要说出需求,就能直接帮你干活。

开源地址:https://github.com/bytedance/UI-TARS-desktop
其实想自动化执行日常任务,需要调试API写各种脚本,对于普通人来说门槛不低。
但UI-TARS-desktop走了一条完全不同的路,AI直接看屏幕截图,像人一样识别界面上哪有按钮哪儿有输入框,然后模拟人的动作去操作。
就是有点类似加强版RPA的感觉,但在使用方面更加简单化,直接输入需求就可以。
例如,我正身处洛杉矶,预算5000美元。请帮我在缤客网上预订离机场最近的丽思卡尔顿酒店,并为我整理一份出行交通指南。
或者帮我在Priceline平台预订从圣何塞飞往纽约的最早航班,以及 9 月 6 日返程的最晚航班。
也能直接让UI-TARS-desktop直接操作你的电脑,请帮我打开VS Code的自动保存功能,并在设置中将自动保存操作延迟500毫秒。整体操作非常丝滑。
UI-TARS-desktop之所以这么强的自动化能力,主要是因为它内置了视觉能力。
也就是说传统自动化方案要么依赖接口要么依赖网页元素选择器,说白了就是网站得配合你才行。
而UI-TARS-desktop可以像人的眼睛一样直接看懂,不管什么软件什么网站,只要人能操作AI就能操作。
说到操作浏览器,这里面的讲究还挺多。有时候你希望AI像人一样去看页面去点击,有时候又希望直接读取网页代码来精确定位某个元素,两种方式各有优缺点。
UI-TARS-desktop厉害就厉害在支持混合策略,就是视觉操作和代码解析两条腿走路,
能根据不同场景自动切换。遇到动态加载的复杂页面就用视觉方式,需要精确定位某个表单就切到代码模式,灵活得很,效率自然也跟着上去了。
登录/注册后继续阅读
立即登录/注册 >