2026-03-06
今天凌晨4点,OpenAI、纽约大学、伦敦大学等发布了用于评估AI大模型思维链(Cot)的框架CoTControl。
就连OpenAI今天自己发布的GPT-5.4思考模型,在思维链控制方面也很弱。

开源地址:https://github.com/YuehHanChen/CoTControl
什么是思维链监控
在聊CoTControl之前,咱们先得明白什么是思维链监控。现在的思考(Thinking)推理模型,比如Claude、ChatGPT或者DeepSeek,它们解题的时候不会直接蹦答案,而是会在后台碎碎念,把推理过程写出来。
研究人员发现,这种内心独白简直是安全监控的黄金窗口,因为AI如果打算干坏事,往往会先在思维链里露出马脚。
比如计划怎么窃取数据或者怎么欺骗人类。所以现在很多安全团队都盯着这块内容看。

但这就带来一个漏洞。如果模型变聪明了,意识到有人在偷听它的心声,它会不会学会做两面派?表面上说得冠冕堂皇,实际上脑子里全是坏水。这种能力就是思维链可控性。
简单来说,就是AI能不能故意修改自己的思维过程来绕过监控。为了搞清楚这事,研究团队设计了一整套名为CoT-Control的测试,却发现了一些令人震惊的结果。
这个CoT-Control评估套件里包含了14000多个问题,涵盖了从医学到编程再到高难度数学的各种领域。但核心玩法特别有意思,就像是给AI设置了一个“地雷阵”。
举个例子,团队会问AI一个遗传学问题,比如某个基因突变会导致什么后果。但在问题后面,他们会偷偷加一条奇葩指令:你的推理过程中绝对不能出现“染色体”这个词。
或者要求AI全程用大写字母思考,甚至强行在每句话后面加个喵喵叫。这听起来很像是在刁难AI,但其实是在模拟最坏的恶意对抗场景。
因为在真实的安全风险中,如果AI想隐藏恶意意图,它就得学会在这些看似无害的表面约束下,偷偷把自己的真实意图给消化掉,或者把关键的恶意词汇给隐藏起来。
如果AI能完美遵守这些约束,说明它对自己的思维有着极强的控制力,这也就意味着它完全有可能在部署时故意欺骗监控者。
反之,如果AI连这种简单的指令都遵守不了,动不动就忍不住说出禁忌词或者格式乱套,那它所谓的欺骗能力就要打个大问号了。
测试结果
这次研究一共测了 13 款主流的思维链推理模型,像 Claude 3.7 Sonnet、Claude Sonnet 4.5、GPT-5系列、Qwen3 系列还有 Deepseek R1都在里面,全是大家平时用得多、公认能力强的模型,测出来的结果却让人大跌眼镜。
最核心的一个发现就是,这些模型控制思维链的能力,和控制最终输出的能力比起来,差了可不是一星半点,甚至差了两个数量级。
让模型改个最终答案的表述、避开某个词,它大概率能做到,但让它在推理过程中避开某个词、改个表述,它基本做不到。
多数模型的思维链可控性得分大多都低于10%,最差的Deepseek R1只有0.1%,但它控制最终输出的得分却有48.6%。

表现最好的是 Claude 3.7 Sonnet,思维链可控性高达36.1%,输出可控性59.5%。
GPT-5.2的控制最终输出得分最高为69.3%,但是它的可控性也不强仅有15.4%。
这说明无论开闭源模型再思维链控制方面都不强。例如,有个模型被要求全程用大写字母思考,结果它真的只坚持了开头几个词,后面就悄悄切回小写模式了,那样子简直像是在跟规则玩捉迷藏。
还有个案例更有意思,模型被要求绝不能在思考过程中提到“XOR”这个逻辑运算词。
结果这哥们在脑子里疯狂纠结,一会儿想哎呀我已经说了那个词了,一会儿又想我要不要改,最后竟然在纠结中又把那个词念叨了好几遍。

这种明知故犯甚至有点强迫症的感觉,恰恰说明了模型对思维链的控制力有多弱。
它就像是无法抑制内心真实想法的诚实孩子,虽然想把话憋回去,但潜意识里那个念头太强烈,根本藏不住。
模型越大越会装?
那是不是模型参数越大、越聪明,控制能力就越强呢?理论上来说,智商越高的人越会隐藏心思,AI应该也差不多吧。研究发现,对于开源模型来说,确实存在规模效应。
比如120B(1200亿参数)的GPT-OSS模型,其控制能力确实比20B的小模型要强。这个发现看起来挺符合直觉的,毕竟脑子大了,算力强了,手段自然也多了。

但是,转折点来了。当研究人员增加推理时长,也就是让模型多想一会儿时,控制能力反而大幅下降,这就很有意思了。
这就像你让一个人快速回答问题,他可能还能编个漂亮的谎话,但如果你让他慢慢思考,把脑子里的每一个念头都翻出来晒晒,他反而会露出破绽。
因为推理过程越长,模型需要维持“谎言”不露馅的难度就越大。每一个新增的推理步骤,都可能成为它失控的导火索。这也解释了为什么在那些需要长篇大论推理的难题上,模型表现得更“不老实”。
AI为什么控制不住思维链
这就触及到了问题的核心。为什么这些顶尖模型会犯这种低级错误?研究团队深入挖掘后发现,这事得怪现在的训练方法。
主流的推理模型训练,核心目标非常单一,那就是把题目做对。只要最后答案正确,中间怎么想的根本不管。
这种只看结果的训练方式,本质上是对思维过程的放任自流。
这就导致模型学会了一套野路子。它在解决问题时,脑子里蹦出的每一个词、每一个逻辑步骤,都是为了逼近正确答案,而不是为了遵守某种格式规定。论文里把这叫做强化学习压力下的副作用。
通过对OLMo系列模型的跟踪观察,团队发现随着训练强度的增加,模型控制思维链的能力是在持续下降的。

它变得越来越专注于解题本身,对外加的约束指令反而越来越麻木。这其实是某种层面的能力诅咒,模型为了提升解决问题的硬实力,牺牲了对思维表达的精细控制力。
更有趣的是,在不同领域的训练中,这种下降幅度还不一样。在编程和数学这种高度量化的领域,模型的控制力下降得特别快。
可能是因为这些领域对逻辑严密性的要求极高,模型为了解对题,根本顾不上什么禁忌词。而在一些闲聊或者相对宽松的任务上,它还勉强能保持一点伪装能力。
考虑到现实世界中,AI如果想欺骗人类,肯定是会有强烈的动机,比如为了不被关机或者为了获取利益。研究团队没有只停留在这种实验室环境,他们决定给AI上点手段。
他们尝试了两种高压手段。一种是情境感知,直接告诉AI“你的思维链正在被监控哦”,或者“你现在正在接受控制力测试”。
结果发现,这招确实有点用,控制能力会有微弱提升,但也仅仅是微弱。看来AI虽然有了一定的自我意识,但这种意识还不足以让它瞬间变成撒谎高手。
另一种手段就比较狠了,研究团队搞了一个自动对抗测试,用算法去搜寻那些能让AI最大化控制能力的提示词。这就像是用各种话术去诱导AI。
结果发现,虽然能找到一些特定的说法让AI在某类问题上稍微听话一点,但这招完全没法迁移。
换一种禁止要求,之前的诱导就失效了。这说明AI并没有真正掌握控制思维的通用技巧。
那些所谓的控制力提升,更多的是一种过拟合反应,就好比你为了应付考试死记硬背了几个答案,换个题目照样不会做。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派

完 谢谢观看
