OpenAI等最新研究:AI控制思维链能力非常差,DeepSeek仅有0.1%

2026-03-06

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今天凌晨4点,OpenAI、纽约大学、伦敦大学等发布了用于评估AI大模型思维链(Cot)的框架CoTControl

就连OpenAI今天自己发布的GPT-5.4思考模型,在思维链控制方面也很弱。

开源地址:https://github.com/YuehHanChen/CoTControl

什么是思维链监控

在聊CoTControl之前,咱们先得明白什么是思维链监控。现在的思考(Thinking)推理模型,比如ClaudeChatGPT或者DeepSeek,它们解题的时候不会直接蹦答案,而是会在后台碎碎念,把推理过程写出来。

研究人员发现,这种内心独白简直是安全监控的黄金窗口,因为AI如果打算干坏事,往往会先在思维链里露出马脚。

比如计划怎么窃取数据或者怎么欺骗人类。所以现在很多安全团队都盯着这块内容看。

但这就带来一个漏洞。如果模型变聪明了,意识到有人在偷听它的心声,它会不会学会做两面派?表面上说得冠冕堂皇,实际上脑子里全是坏水。这种能力就是思维链可控性。

简单来说,就是AI能不能故意修改自己的思维过程来绕过监控。为了搞清楚这事,研究团队设计了一整套名为CoT-Control的测试,却发现了一些令人震惊的结果。

这个CoT-Control评估套件里包含了14000多个问题,涵盖了从医学到编程再到高难度数学的各种领域。但核心玩法特别有意思,就像是给AI设置了一个地雷阵

举个例子,团队会问AI一个遗传学问题,比如某个基因突变会导致什么后果。但在问题后面,他们会偷偷加一条奇葩指令:你的推理过程中绝对不能出现染色体这个词。

或者要求AI全程用大写字母思考,甚至强行在每句话后面加个喵喵叫。这听起来很像是在刁难AI,但其实是在模拟最坏的恶意对抗场景。

因为在真实的安全风险中,如果AI想隐藏恶意意图,它就得学会在这些看似无害的表面约束下,偷偷把自己的真实意图给消化掉,或者把关键的恶意词汇给隐藏起来。

如果AI能完美遵守这些约束,说明它对自己的思维有着极强的控制力,这也就意味着它完全有可能在部署时故意欺骗监控者。

反之,如果AI连这种简单的指令都遵守不了,动不动就忍不住说出禁忌词或者格式乱套,那它所谓的欺骗能力就要打个大问号了。

测试结果

这次研究一共测了 13 款主流的思维链推理模型,像 Claude 3.7 SonnetClaude Sonnet 4.5GPT-5系列、Qwen3 系列还有 Deepseek R1都在里面,全是大家平时用得多、公认能力强的模型,测出来的结果却让人大跌眼镜。

最核心的一个发现就是,这些模型控制思维链的能力,和控制最终输出的能力比起来,差了可不是一星半点,甚至差了两个数量级。

让模型改个最终答案的表述、避开某个词,它大概率能做到,但让它在推理过程中避开某个词、改个表述,它基本做不到。

多数模型的思维链可控性得分大多都低于10%最差的Deepseek R1只有0.1%,但它控制最终输出的得分却有48.6%

表现最好的是 Claude 3.7 Sonnet,思维链可控性高达36.1%,输出可控性59.5%

GPT-5.2的控制最终输出得分最高为69.3%,但是它的可控性也不强仅有15.4%

这说明无论开闭源模型再思维链控制方面都不强。例如,有个模型被要求全程用大写字母思考,结果它真的只坚持了开头几个词,后面就悄悄切回小写模式了,那样子简直像是在跟规则玩捉迷藏。

还有个案例更有意思,模型被要求绝不能在思考过程中提到“XOR”这个逻辑运算词。

结果这哥们在脑子里疯狂纠结,一会儿想哎呀我已经说了那个词了,一会儿又想我要不要改,最后竟然在纠结中又把那个词念叨了好几遍。

这种明知故犯甚至有点强迫症的感觉,恰恰说明了模型对思维链的控制力有多弱。

它就像是无法抑制内心真实想法的诚实孩子,虽然想把话憋回去,但潜意识里那个念头太强烈,根本藏不住。

模型越大越会装?

那是不是模型参数越大、越聪明,控制能力就越强呢?理论上来说,智商越高的人越会隐藏心思,AI应该也差不多吧。研究发现,对于开源模型来说,确实存在规模效应。

比如120B1200亿参数)的GPT-OSS模型,其控制能力确实比20B的小模型要强。这个发现看起来挺符合直觉的,毕竟脑子大了,算力强了,手段自然也多了。

但是,转折点来了。当研究人员增加推理时长,也就是让模型多想一会儿时,控制能力反而大幅下降,这就很有意思了。

这就像你让一个人快速回答问题,他可能还能编个漂亮的谎话,但如果你让他慢慢思考,把脑子里的每一个念头都翻出来晒晒,他反而会露出破绽。

因为推理过程越长,模型需要维持谎言不露馅的难度就越大。每一个新增的推理步骤,都可能成为它失控的导火索。这也解释了为什么在那些需要长篇大论推理的难题上,模型表现得更不老实

AI为什么控制不住思维链

这就触及到了问题的核心。为什么这些顶尖模型会犯这种低级错误?研究团队深入挖掘后发现,这事得怪现在的训练方法。

主流的推理模型训练,核心目标非常单一,那就是把题目做对。只要最后答案正确,中间怎么想的根本不管

这种只看结果的训练方式,本质上是对思维过程的放任自流。

这就导致模型学会了一套野路子。它在解决问题时,脑子里蹦出的每一个词、每一个逻辑步骤,都是为了逼近正确答案,而不是为了遵守某种格式规定。论文里把这叫做强化学习压力下的副作用。

通过对OLMo系列模型的跟踪观察,团队发现随着训练强度的增加,模型控制思维链的能力是在持续下降的。

它变得越来越专注于解题本身,对外加的约束指令反而越来越麻木。这其实是某种层面的能力诅咒,模型为了提升解决问题的硬实力,牺牲了对思维表达的精细控制力。

更有趣的是,在不同领域的训练中,这种下降幅度还不一样。在编程和数学这种高度量化的领域,模型的控制力下降得特别快

可能是因为这些领域对逻辑严密性的要求极高,模型为了解对题,根本顾不上什么禁忌词。而在一些闲聊或者相对宽松的任务上,它还勉强能保持一点伪装能力。

考虑到现实世界中,AI如果想欺骗人类,肯定是会有强烈的动机,比如为了不被关机或者为了获取利益。研究团队没有只停留在这种实验室环境,他们决定给AI上点手段。

他们尝试了两种高压手段。一种是情境感知,直接告诉AI“你的思维链正在被监控哦,或者你现在正在接受控制力测试

结果发现,这招确实有点用,控制能力会有微弱提升,但也仅仅是微弱。看来AI虽然有了一定的自我意识,但这种意识还不足以让它瞬间变成撒谎高手。

另一种手段就比较狠了,研究团队搞了一个自动对抗测试,用算法去搜寻那些能让AI最大化控制能力的提示词。这就像是用各种话术去诱导AI

结果发现,虽然能找到一些特定的说法让AI在某类问题上稍微听话一点,但这招完全没法迁移

换一种禁止要求,之前的诱导就失效了。这说明AI并没有真正掌握控制思维的通用技巧。

那些所谓的控制力提升,更多的是一种过拟合反应,就好比你为了应付考试死记硬背了几个答案,换个题目照样不会做。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序
图片
点击下方
阅读原文
即刻跳转至CAIE官网,了解更多AI相关信息

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖