2026-05-02
清华和腾讯混元团队最近联手开源了一个新框架Meta-CoT,刚被CVPR 2026收录。
简单来说,Meta-CoT就是教AI修图模型学会想清楚了再动手。你给的指令越复杂,它越能拆得明明白白,最后出来的效果也就越精准。

开源地址:https://github.com/shiyi-zh0408/Meta-CoT
咱们先看下展示的效果,例如,把这个图片直接转换成十字绣风格。


把一批马变成红砖风格的,其他场景都不变。


除了变换风格之外,也能快速抠图。例如,把一位女子从图像中快速抠出来。
其实这里比PS要更厉害一些。因为咱们用通道、钢笔扣完图之后,那个地方像素直接就被破坏了,还需要人工来修复。
而Meta-CoT不仅把人物抠出来了,还自动修复了受损图片真的很强。


看到这里你可能会好奇,Meta-CoT是怎么做到这么精准的。其实答案藏在两步分解机制里。
第一步,把你说的任何编辑需求拆成三个东西:你要做什么类型的操作、改的是哪个部分、模型需要什么水平的理解力来配合。
举个例子,你说把照片里的红苹果换成绿的。Meta-CoT会先判断出来,操作类型是替换,目标是苹果的颜色,理解力上要求模型能认出苹果并且分得清红和绿。
有点像你去理发店,老手师傅不会一上来就抄剪子,而是先问清楚你是想修短一点还是换个造型,日常用还是正式场合穿。问清楚了再动手,出来的效果才不会翻车。
第二步分解就更有意思了。研究团队总结出一个规律,不管你提的编辑需求看上去多花哨,本质上都可以拆成五种最基本的操作:添加东西、删掉东西、替换元素、切换视角、移动位置。
就像乐高积木一样,基础块的种类其实很少,但组合起来能拼出无穷无尽的花样。

他们只在这五种元任务上训练模型,结果模型竟然能泛化到超过二十一种编辑任务。日常你能想到的修图需求,基本都覆盖了。
除了这两层分解,项目还搭了一套一致性检查机制。通俗点说,就是看模型想的过程和最终做出来的结果是不是一致的。
就好比考试的时候,老师不只看你答案写得对不对,还得看你的解题步骤是不是合理。如果模型心里盘算的是把背景改成蓝色。
登录/注册后继续阅读
立即登录/注册 >上一篇: 别只盯着提示词了,未来值钱的其实是AI的决策能力 下一篇: 为什么很多人学了很久AI,收入却没涨?
