字节跳动新开源太狠了!2个token让AI精准抠图,这下连PS饭碗也砸了

2026-01-23

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

现在多模态大模型虽然能听懂人话,也能看懂图片,但一旦涉及到像素级的精准操作,比如把图里那个穿红衣服的小姐姐单独扣出来,这事对于大模型来说其实挺难的。

以前咱们做这种区域识别,要么是用一大堆数字去框定位置,要么就是专门搞个分割头,不仅笨重,训练起来还费劲。

字节跳动、武汉大学等研究人员联合开源了一个重磅模型SAMTok,硬生生地把一个复杂的图像遮罩压缩成了仅仅2个文本token,并且还能精准抠图,直接颠覆了整个多模态赛道。

开源地址:https://github.com/bytedance/Sa2VA/tree/main/projects/samtok

在线体验:https://huggingface.co/spaces/insomnia7/SAMTok

SAMTok同时提供了在线体验。例如,我们上传一张图片,然后仅用了不到30秒时间就完成了快速分割,效率太爽了。

在比如,上传一张非常复杂的图像,然后只扣出站立的人。就算用PS也是相当费劲。

而现在用AI只需要一键+提示词,30秒完事。

咱们来聊聊SAMTok到底是怎么做到的,为啥这么牛。以前大模型处理图像区域,就像是指挥官在地图上画圈,得把坐标、边界框这些数据一股脑塞进去,不仅数据量大,而且模型理解起来也费劲。

SAMTok真的给人一种脑洞大开的感觉,思路其实特别清奇,它不跟那些复杂的像素纠缠了。

它想了个招,把图像里的任意一个区域,不管它形状多奇怪,是一个圆还是个不规则的多边形,甚至是一根细细的线,它都用一种叫残差量化的技术,把这一大坨信息压缩成两个特殊的token

你可以把它想象成一个超级压缩大师。以前你要描述图里的一只狗,可能得用几百个数字去描绘它的边缘轮廓。

现在SAMTok来了,看了一眼,直接从字典里掏出两个代号,比如这就好比是暗号A和暗号B。只要大模型看到这两个代号,立马就能在脑海里还原出这只狗的精确形状。

这种用两个token就代表任意形状区域的能力,直接把以前需要几十甚至上百个token才能描述清楚的信息量给浓缩到了极致,推理成本自然也就降下来了。

更有意思的是SAMTok带来的训练方式的变革。以前的模型想做像素级理解,得搞专门的架构,损失函数都要重新写,什么DiceLoss啊、BCELoss啊,一大堆公式。

这就导致它很难像咱们平时聊天的大模型那样,通过简单的预测下一个词来进化。但是SAMTok把掩码变成了token之后,情况就完全变了。

对于大模型来说,生成一个分割区域,跟写一句诗或者编个段子在原理上没任何区别,都是在预测下一个该出哪个词。这意味着我们完全可以把强化学习这套玩意儿直接用上去,而不需要像以前那样还得专门设计奖励机制。

比如说模型回答对了,咱们就给它奖励,错了就惩罚,这跟教AlphaGo下棋是一个道理,只不过现在它学的是怎么精准地抠图。这种统一性让整个训练过程变得特别丝滑,不需要搞那些复杂的定制化模块,拿来就能用。

只要用下一个token预测损失进行有监督微调,再配合一点简单的强化学习,模型就能掌握像素级能力。这就像是把复杂的图像处理任务,变成了简单的填词游戏,大模型玩起来那是相当顺手。

当然啦,要想让SAMTok好用,没点硬核的数据那是肯定不行的。研究团队这次也是下了血本,他们为了训练这个SAMTok,愣是收集了209M个多样化的掩码数据

你想想这个数量级,两亿多个掩码啊,涵盖了室内室外、网页界面、各种乱七八糟的场景。这就好比是让一个学生刷了两亿道题,那见到什么考题肯定都不慌了。

而且为了让大模型能适应这种新的表达方式,他们还专门构造了大概500万个交错掩码和文本的样本

这些样本把各种任务,比如你要描述一个区域,或者让你根据描述把区域找出来,统统都转化成了纯文本的形式。

确定要退出登录吗?
确定 取消
推广有奖