清华、腾讯联手创新开源，AI修图彻底听懂人话，已被CVPR 2026收录。

2026-05-02

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

清华和腾讯混元团队最近联手开源了一个新框架Meta-CoT，刚被CVPR 2026收录。

简单来说，Meta-CoT就是教AI修图模型学会想清楚了再动手。你给的指令越复杂，它越能拆得明明白白，最后出来的效果也就越精准。

开源地址：https://github.com/shiyi-zh0408/Meta-CoT

咱们先看下展示的效果，例如，把这个图片直接转换成十字绣风格。

把一批马变成红砖风格的，其他场景都不变。

除了变换风格之外，也能快速抠图。例如，把一位女子从图像中快速抠出来。

其实这里比PS要更厉害一些。因为咱们用通道、钢笔扣完图之后，那个地方像素直接就被破坏了，还需要人工来修复。

而Meta-CoT不仅把人物抠出来了，还自动修复了受损图片真的很强。

看到这里你可能会好奇，Meta-CoT是怎么做到这么精准的。其实答案藏在两步分解机制里。

第一步，把你说的任何编辑需求拆成三个东西：你要做什么类型的操作、改的是哪个部分、模型需要什么水平的理解力来配合。

举个例子，你说把照片里的红苹果换成绿的。Meta-CoT会先判断出来，操作类型是替换，目标是苹果的颜色，理解力上要求模型能认出苹果并且分得清红和绿。

有点像你去理发店，老手师傅不会一上来就抄剪子，而是先问清楚你是想修短一点还是换个造型，日常用还是正式场合穿。问清楚了再动手，出来的效果才不会翻车。

第二步分解就更有意思了。研究团队总结出一个规律，不管你提的编辑需求看上去多花哨，本质上都可以拆成五种最基本的操作：添加东西、删掉东西、替换元素、切换视角、移动位置。

就像乐高积木一样，基础块的种类其实很少，但组合起来能拼出无穷无尽的花样。

他们只在这五种元任务上训练模型，结果模型竟然能泛化到超过二十一种编辑任务。日常你能想到的修图需求，基本都覆盖了。

除了这两层分解，项目还搭了一套一致性检查机制。通俗点说，就是看模型想的过程和最终做出来的结果是不是一致的。

就好比考试的时候，老师不只看你答案写得对不对，还得看你的解题步骤是不是合理。如果模型心里盘算的是把背景改成蓝色。

最后出来的图片背景偏偏是红色的，那这个分数就会很低，模型就会被纠正回来，下次就不会犯同样的错。

数据层面也能验证这套方法确实管用。在二十一项编辑任务的基准测试上，Meta-CoT比之前最强的方法整体高出15.8%。

在ImgEdit基准上比BAGEL高出13%。了解AI学术界的朋友应该清楚，在顶会论文里几个百分点的提升就已经算很突出了，十几的差距基本就是代际级别的领先。

如果你想深入研究或者拿它来搭自己的编辑管线，这个开源项目也留了足够的余地。

SFT阶段的训练代码全部开放了，数据加载支持Parquet分片格式，处理大规模数据集的效率还不错。不同数据配比怎么影响最终效果，你可以自己调整参数去实验。

团队还顺手发布了一个二十一种编辑任务的基准测试集，覆盖面从简单的风格迁移一直到复杂的多元素编辑。

你可以拿它来评估不同模型在各类场景下的表现，或者当自己研究的参照基准。

对AI图像编辑感兴趣的朋友，或者工作里需要批量处理图片编辑的，这个项目确实值得花时间看看。

CVPR 2026已经接收了，代码和技术方案的质量是有背书的。

想系统掌握AI核心技能、获取行业认可资质？

CAIE注册人工智能工程师认证

助你拓宽职业赛道，成为AI领域持证实力派

微信小程序

CAIE 认证

CAIE认证

以上内容来自微信小程序

企业、高校及渠道合作

请联系微信：FYLlaoshi

完谢谢观看

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。