Github每日最佳AI智能体,专挖搜索引擎找不到的答案

2026-01-07

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

AI助手越来越聪明,能回答问题、写文章、甚至帮你做PPT,但有一个特别尴尬的地方一直没解决:它们其实根本不会上网

你可能会说,不对啊,我问它今年诺贝尔奖得主是谁,它不是秒回了吗?那是因为它背后偷偷用了搜索引擎的摘要结果,相当于别人嚼碎了喂给它吃。

真正的网页长什么样?那些藏在按钮后面的内容、需要填表单才能看到的数据、或者点一下才弹出来的菜单。这些动态信息,大多数AI根本碰不到。

打个比方,现在的AI上网,就像一个人被蒙着眼睛站在图书馆门口,只能靠别人在外面喊:第三排左边第二本书,封面是蓝色的,里面有你要的答案。

但它自己不能进去翻书,更别说拉开抽屉、按电梯、或者打开带密码的保险柜了。

这个问题卡了好久。最近阿里的通义实验室开源了NestBrowse 的新框架,直接让AI学会了自己动手点网页找答案。只用一个参数量不大的小模型,干翻了不少大厂的巨无霸系统。

要让AI会用浏览器,就得给它一堆操作指令:滚动、点击、输入、拖拽……恨不得把鼠标键盘都虚拟出来。但这样有个致命问题信息爆炸。

你想啊,随便打开一个电商网站,光商品描述、用户评论、推荐列表加起来,文本长度轻松突破几万字。而目前主流大模型的上下文窗口也就十几万token,极少数支持百万级。

要是把整个网页原封不动塞给AI,它还没找到答案,脑子(上下文)就已经满了,后面的操作全乱套。

NestBrowse没走这条路。它的核心想法特别朴素:别让AI看整个网页,只让它看跟当前任务有关的那一小块

阿里搞了个双层大脑设计。外层大脑负责想大事:用户问的是啥?接下来该搜什么关键词?要不要点那个查看更多按钮?它像个项目经理,只管战略方向。

一旦决定要点开某个链接或按钮,内层大脑就立刻上线。它的任务超专注:在这个新页面里,根据外层给的目标,快速扫一遍,只留下有用的信息,其他全扔掉。

比如目标是找会议论文列表,那它就只抓取包含、paperproceedingsaccepted的段落,广告、导航栏、页脚统统忽略。

最后,内层把提炼好的几句话交还给外层。外层拿到的永远是干净、简洁、直奔主题的情报摘要,而不是一坨乱七八糟的网页源码。

这种巧妙设计,就像你去超市买东西,外层是你列的购物清单,内层是你的眼睛和手。你不会把整个超市搬回家,只会精准拿走清单上的东西。效率高,还不累。

另一个让人拍大腿的设计,是他们的工具包只有四个动作:搜索、访问、点击、填表。

对,就这么简单。没有滚动,没有悬停,没有右键菜单。团队特意砍掉了所有看起来有用但其实干扰判断的操作。

为什么敢这么精简?因为他们发现,99%的网页交互,其实都能拆解成点一下输点字这两个基本动作。

你想查航班?点日期选择器,输出发地目的地。你想用在线计算器?输公式,点计算。连那些复杂的多步骤表单,本质上也是反复+的组合。

工具越少,AI做决策时就越不容易懵。它不用在几十个操作里纠结到底该滚屏还是该点按钮,而是直接聚焦在我下一步要获取什么信息上。这种克制,反而带来了更强的泛化能力。

确定要退出登录吗?
确定 取消
推广有奖