2026-01-07
AI助手越来越聪明,能回答问题、写文章、甚至帮你做PPT,但有一个特别尴尬的地方一直没解决:它们其实根本不会“上网”。
你可能会说,不对啊,我问它“今年诺贝尔奖得主是谁”,它不是秒回了吗?那是因为它背后偷偷用了搜索引擎的摘要结果,相当于别人嚼碎了喂给它吃。
真正的网页长什么样?那些藏在按钮后面的内容、需要填表单才能看到的数据、或者点一下才弹出来的菜单。这些动态信息,大多数AI根本碰不到。

打个比方,现在的AI上网,就像一个人被蒙着眼睛站在图书馆门口,只能靠别人在外面喊:“第三排左边第二本书,封面是蓝色的,里面有你要的答案。”
但它自己不能进去翻书,更别说拉开抽屉、按电梯、或者打开带密码的保险柜了。
这个问题卡了好久。最近阿里的通义实验室开源了NestBrowse 的新框架,直接让AI学会了自己动手点网页找答案。只用一个参数量不大的小模型,干翻了不少大厂的巨无霸系统。
要让AI会用浏览器,就得给它一堆操作指令:滚动、点击、输入、拖拽……恨不得把鼠标键盘都虚拟出来。但这样有个致命问题信息爆炸。
你想啊,随便打开一个电商网站,光商品描述、用户评论、推荐列表加起来,文本长度轻松突破几万字。而目前主流大模型的上下文窗口也就十几万token,极少数支持百万级。
要是把整个网页原封不动塞给AI,它还没找到答案,脑子(上下文)就已经满了,后面的操作全乱套。
NestBrowse没走这条路。它的核心想法特别朴素:别让AI看整个网页,只让它看跟当前任务有关的那一小块。
阿里搞了个“双层大脑”设计。外层大脑负责想大事:用户问的是啥?接下来该搜什么关键词?要不要点那个“查看更多”按钮?它像个项目经理,只管战略方向。
一旦决定要点开某个链接或按钮,内层大脑就立刻上线。它的任务超专注:在这个新页面里,根据外层给的目标,快速扫一遍,只留下有用的信息,其他全扔掉。
比如目标是“找会议论文列表”,那它就只抓取包含、paper、proceedings、accepted的段落,广告、导航栏、页脚统统忽略。
最后,内层把提炼好的几句话交还给外层。外层拿到的永远是干净、简洁、直奔主题的“情报摘要”,而不是一坨乱七八糟的网页源码。
这种巧妙设计,就像你去超市买东西,外层是你列的购物清单,内层是你的眼睛和手。你不会把整个超市搬回家,只会精准拿走清单上的东西。效率高,还不累。

另一个让人拍大腿的设计,是他们的工具包只有四个动作:搜索、访问、点击、填表。
对,就这么简单。没有滚动,没有悬停,没有右键菜单。团队特意砍掉了所有看起来有用但其实干扰判断的操作。
为什么敢这么精简?因为他们发现,99%的网页交互,其实都能拆解成“点一下”和“输点字”这两个基本动作。
你想查航班?点日期选择器,输出发地目的地。你想用在线计算器?输公式,点计算。连那些复杂的多步骤表单,本质上也是反复“填+点”的组合。
工具越少,AI做决策时就越不容易懵。它不用在几十个操作里纠结“到底该滚屏还是该点按钮”,而是直接聚焦在“我下一步要获取什么信息”上。这种克制,反而带来了更强的泛化能力。
登录/注册后继续阅读
立即登录/注册 >