清华、腾讯联手创新开源,AI修图彻底听懂人话,已被CVPR 2026收录。

2026-05-02

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

清华和腾讯混元团队最近联手开源了一个新框架Meta-CoT,刚被CVPR 2026收录。

简单来说,Meta-CoT就是教AI修图模型学会想清楚了再动手。你给的指令越复杂,它越能拆得明明白白,最后出来的效果也就越精准。

开源地址:https://github.com/shiyi-zh0408/Meta-CoT

咱们先看下展示的效果,例如,把这个图片直接转换成十字绣风格。

把一批马变成红砖风格的,其他场景都不变。

除了变换风格之外,也能快速抠图。例如,把一位女子从图像中快速抠出来。

其实这里比PS要更厉害一些。因为咱们用通道、钢笔扣完图之后,那个地方像素直接就被破坏了,还需要人工来修复。

Meta-CoT不仅把人物抠出来了,还自动修复了受损图片真的很强。

看到这里你可能会好奇,Meta-CoT是怎么做到这么精准的。其实答案藏在两步分解机制里。

第一步,把你说的任何编辑需求拆成三个东西:你要做什么类型的操作、改的是哪个部分、模型需要什么水平的理解力来配合。

举个例子,你说把照片里的红苹果换成绿的。Meta-CoT会先判断出来,操作类型是替换,目标是苹果的颜色,理解力上要求模型能认出苹果并且分得清红和绿。

有点像你去理发店,老手师傅不会一上来就抄剪子,而是先问清楚你是想修短一点还是换个造型,日常用还是正式场合穿。问清楚了再动手,出来的效果才不会翻车。

第二步分解就更有意思了。研究团队总结出一个规律,不管你提的编辑需求看上去多花哨,本质上都可以拆成五种最基本的操作:添加东西、删掉东西、替换元素、切换视角、移动位置。

就像乐高积木一样,基础块的种类其实很少,但组合起来能拼出无穷无尽的花样。

他们只在这五种元任务上训练模型,结果模型竟然能泛化到超过二十一种编辑任务。日常你能想到的修图需求,基本都覆盖了。

除了这两层分解,项目还搭了一套一致性检查机制。通俗点说,就是看模型想的过程和最终做出来的结果是不是一致的。

就好比考试的时候,老师不只看你答案写得对不对,还得看你的解题步骤是不是合理。如果模型心里盘算的是把背景改成蓝色。

最后出来的图片背景偏偏是红色的,那这个分数就会很低,模型就会被纠正回来,下次就不会犯同样的错。

数据层面也能验证这套方法确实管用。在二十一项编辑任务的基准测试上,Meta-CoT比之前最强的方法整体高出15.8%

ImgEdit基准上比BAGEL高出13%。了解AI学术界的朋友应该清楚,在顶会论文里几个百分点的提升就已经算很突出了,十几的差距基本就是代际级别的领先。

如果你想深入研究或者拿它来搭自己的编辑管线,这个开源项目也留了足够的余地。

SFT阶段的训练代码全部开放了,数据加载支持Parquet分片格式,处理大规模数据集的效率还不错。不同数据配比怎么影响最终效果,你可以自己调整参数去实验。

团队还顺手发布了一个二十一种编辑任务的基准测试集,覆盖面从简单的风格迁移一直到复杂的多元素编辑。

你可以拿它来评估不同模型在各类场景下的表现,或者当自己研究的参照基准。

AI图像编辑感兴趣的朋友,或者工作里需要批量处理图片编辑的,这个项目确实值得花时间看看。

CVPR 2026已经接收了,代码和技术方案的质量是有背书的。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖