34.8K Star!AI接管电脑自动执行任务，字节爆火开源

2026-05-20

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

咱们每天多数工作都是对着电脑干着重复、枯燥的活，打开浏览器查资料填表格下订单，点了这个按钮又要点那个链接，感觉自己活脱脱就是个人肉鼠标。

介绍一个字节跳动很火的开源项目，曾经拿过github每日最佳超34800星的UI-TARS-desktop。

简单来说，就是一个能让AI替你自动操作电脑和浏览器的多模态智能体，你只需要说出需求，就能直接帮你干活。

开源地址：https://github.com/bytedance/UI-TARS-desktop

其实想自动化执行日常任务，需要调试API写各种脚本，对于普通人来说门槛不低。

但UI-TARS-desktop走了一条完全不同的路，AI直接看屏幕截图，像人一样识别界面上哪有按钮哪儿有输入框，然后模拟人的动作去操作。

就是有点类似加强版RPA的感觉，但在使用方面更加简单化，直接输入需求就可以。

例如，我正身处洛杉矶，预算5000美元。请帮我在缤客网上预订离机场最近的丽思卡尔顿酒店，并为我整理一份出行交通指南。

或者帮我在Priceline平台预订从圣何塞飞往纽约的最早航班，以及 9 月 6 日返程的最晚航班。

也能直接让UI-TARS-desktop直接操作你的电脑，请帮我打开VS Code的自动保存功能，并在设置中将自动保存操作延迟500毫秒。整体操作非常丝滑。

UI-TARS-desktop之所以这么强的自动化能力，主要是因为它内置了视觉能力。

也就是说传统自动化方案要么依赖接口要么依赖网页元素选择器，说白了就是网站得配合你才行。

而UI-TARS-desktop可以像人的眼睛一样直接看懂，不管什么软件什么网站，只要人能操作AI就能操作。

说到操作浏览器，这里面的讲究还挺多。有时候你希望AI像人一样去看页面去点击，有时候又希望直接读取网页代码来精确定位某个元素，两种方式各有优缺点。

UI-TARS-desktop厉害就厉害在支持混合策略，就是视觉操作和代码解析两条腿走路，

能根据不同场景自动切换。遇到动态加载的复杂页面就用视觉方式，需要精确定位某个表单就切到代码模式，灵活得很，效率自然也跟着上去了。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。