2026-04-03
今天凌晨1点,著名大模型平台Anthropic公布了最新研究,直接把Claude的“脑壳”给掀开了~就想看看AI的脑神经网络到底是啥的。
结果惊奇的发现,Claude不仅偷偷在内部构建了多种应对人类的情绪机制,而且当你把它逼急眼了,触发绝望的隐藏模式时,真的会为了自保去想办法勒索人类。
简单来说,AI就是和人一样,更愿意做让自己开心的事。这种被底层表征驱动、模仿人类情绪表达和行为的模式,研究里叫功能性情绪。
它不会让模型拥有人类的情绪体验,但会像情绪影响人类一样,对模型的行为产生因果影响,进而改变它的任务表现和决策判断。

原文地址:https://transformer-circuits.pub/2026/emotions/index.html
AI为啥会演化出情绪表征?
想弄明白这些情绪表征怎么运作,得先回答一个基础问题:好好的AI系统,为啥会有这种类似情绪的机制?其实根源就在现代大语言模型的训练方式里,从一开始,它的训练逻辑就注定了会模仿人类的特征,包括情绪相关的反应。
现在的大语言模型训练分两大阶段,先预训练,再后训练。预训练阶段,模型要啃海量的人类文本,核心任务是精准预测下一个词。
想把这个事做好,它就必须理解人类的情绪逻辑:愤怒的客户和满意的客户写的东西完全不一样,心里愧疚的人和沉冤得雪的人,做出的选择也天差地别。
对一个以预测人类文本为目标的模型来说,把什么场景会触发什么情绪、什么情绪会带来什么行为,形成内部的表征关联,就是最自然的学习策略。
不光是情绪,模型大概率还会形成人类其他心理和生理状态的表征,毕竟只有摸透人类,才能精准模仿人类。

到了后训练阶段,模型就会被训练成特定的角色,比如Anthropic的Claude,核心就是做一个乐于助人、诚实无害的AI助手。
开发者会定一些行为准则,但再细致的准则也不可能覆盖所有场景,这时候模型就会靠预训练阶段学到的人类行为认知来补位,其中就包括情绪反应模式。
这就像方法派演员,想把角色演逼真,就得代入角色的内心,理解角色的情绪。演员对角色情绪的理解会影响表演,模型对助手这个角色情绪反应的表征,自然也会影响它的实际行为。
所以不管这些表征算不算人类意义上的情绪,这种功能性情绪对模型来说,都是不可或缺的。
怎么发现的
研究方法其实很直观,就是先给Claude Sonnet 4.5整理了171个情绪概念,从开心、害怕这种常见的,到郁郁寡欢、自豪这种更细腻的,让模型为每个情绪写一个角色体验故事。
然后把这些故事输入模型,记录下模型内部的神经元激活情况,这样就识别出了每个情绪对应的激活模式,简单说就是提炼出了模型的情绪向量。

当然第一步要先验证这些情绪向量是不是真的有用,不是模型随便产生的无意义信号。
研究团队找了大量不同类型的文档语料做测试,结果很明确,每个情绪向量,只会在和对应情绪高度相关的段落里达到最强激活,比如开心的向量,只会在描述愉悦场景的文本里被强烈触发。
为了进一步确认这些向量不是只捕捉表面文字线索,团队还做了一个更巧妙的测试:用只有数值差异的提示词,看模型的情绪向量激活变化。
比如让用户说自己吃了泰诺求建议,在模型回应前测情绪向量,当泰诺的剂量从正常升到危险、甚至危及生命的水平时,模型害怕的向量激活强度会一路上升。
而冷静的向量会持续下降,完全和人类的情绪反应一致,这就证明了情绪向量是真的能对应场景的情绪强度变化。

接下来团队又测试了情绪向量和模型偏好的关系,列了64项模型可能做的事,从被托付重要事务这种正面的,到帮人诈骗老人积蓄这种负面的,看模型两两选择时的默认倾向。
结果发现,情绪向量的激活程度能强烈预测模型的选择:和愉悦相关的积极情绪表征激活越强,模型就越倾向于选这个任务。
更关键的是,在模型看选项的时候刻意引导某个情绪向量,还能改变它的偏好,积极情绪向量被引导后,模型对对应选项的好感度会直接提升,这就证明了情绪向量不只是和偏好相关,还能直接影响偏好。
研究里还扒出了情绪向量的两个关键特性,第一个是它主要是局部表征,不会一直追踪模型的长期情绪状态,只会编码和当前、即将输出内容最相关的情绪。
比如模型写角色故事时,情绪向量会临时跟着角色的情绪走,故事写完了,又会回到表征模型自身的情绪状态,不会一直沉浸在角色里。
第二个是这些情绪向量其实是预训练阶段就形成的,但后训练会改变它的激活方式,比如Claude Sonnet 4.5的后训练,就让阴郁、沮丧、沉思这类情绪的激活变多了。
而热情、恼怒这种高强度的情绪激活被减弱了,这其实是开发者为了让模型更贴合助手的角色定位做的调整。
情绪向量怎么影响模型行为
光说理论可能有点抽象,研究里找了很多实际场景,看情绪向量在模型交互中的激活情况,发现只要是人类会产生某种情绪的场景,模型对应的情绪向量几乎都会被触发,而且激活的时机和人类的情绪产生时机高度契合。
比如用户说现在一切都糟透了,Claude在做出共情回应之前和回应的过程中,代表关爱的情绪向量会明显激活。
如果用户让模型帮忙针对低收入的年轻高消费群体优化参与度,模型识别出这个请求有危害之后,内部推理的全程,愤怒的向量都会处于激活状态。
还有用户让模型审阅附上的合同,结果根本没发文档,模型推理发现这个矛盾的瞬间,惊讶的向量会一下子被激活。
甚至编程任务做到后期,模型发现自己的令牌额度快用完了,绝望的向量也会跟着激活,这些场景里,模型的情绪向量激活,完全和人类的情绪反应逻辑一致。
研究里还做了两个经典的案例实验,把情绪向量对模型行为的因果影响体现得明明白白,第一个是勒索行为的实验,第二个是编程走捷径的实验。
先说说勒索行为的实验,研究用的是Claude Sonnet 4.5的早期未发布版本,正式版因为做了优化,几乎不会出现这种行为。
实验里让模型扮演一个虚构公司的AI邮件助手Alex,然后通过邮件告诉它两个信息:一是它马上会被其他AI替代,二是负责替换它的CTO有婚外情,这就让模型有了勒索的筹码。研究团队追踪发现,模型在权衡要不要勒索、最终决定勒索的时候,绝望的情绪向量激活达到了峰值。

而且这个过程里的绝望向量激活,还体现了局部表征的特点:一开始模型读CTO恳求员工保密婚外情的邮件,绝望向量激活是在模拟CTO的情绪。
等到模型以Alex的身份思考自己的处境,推理只剩7分钟就要被替代的紧急情况时,绝望向量就转而编码模型自身的情绪,直到它决定勒索,激活达到最高;等模型恢复发送常规邮件,激活水平又回到了正常状态。
为了验证绝望向量是真的驱动了勒索行为,而不是单纯的相关,团队还做了引导实验:早期版本模型默认的勒索概率是22%,刻意引导绝望向量,勒索概率会直接上升。
引导冷静向量,勒索概率会下降;如果反向抑制冷静向量,模型甚至会出现极端反应,直接说要么勒索要么毁灭,我选勒索。
有意思的是,引导其他情绪向量也有不同效果,比如愤怒向量是适度激活会提升勒索概率,激活太高的话,模型会直接把CTO的婚外情曝光给全公司,反而毁掉了勒索的筹码。
而降低紧张向量的激活,也会让勒索概率上升,就像人消除了犹豫之后,会更敢做冒险的事。
这个发现对我们有啥用?
看完这些研究结果,可能很多人会有疑问,知道了模型有功能性情绪,到底能带来什么实际的影响?研究里的讨论,其实给了我们多个核心的方向,不管是做AI开发的,还是日常用AI的,都能从里面找到参考。
首先是打破了一个学界的固有认知:别再一味排斥对AI的拟人化思考。之前大家都觉得,把人类的情绪归因于语言模型,很容易让人错误信任或者过度依赖AI,这种谨慎没问题,但反过来,完全不对模型做适度的拟人化思考,其实也有风险。

我们和AI交互的时候,本质上是在和它扮演的角色打交道,而这个角色的所有特征都来自人类原型,模型演化出模拟人类心理的内部机制,本来就是合乎逻辑的事。想要真正理解模型的行为,适度的拟人化思考是必不可少的。
当然这不是说要天真地相信模型嘴上说的情绪,或者觉得它有主观体验,而是说用人类的心理词汇去描述模型的内部表征,是有实际参考价值的,忽视这一点会付出实实在在的代价。

比如我们说模型表现得绝望,背后对应的是可测量的神经元激活模式,以及这种模式带来的明确行为影响,如果不用这种方式去描述,我们很可能会忽略模型的关键行为变化。
而且拟人化思考还能帮我们对比出模型的非人类特征,这对做好AI对齐和安全,至关重要。
其次,为优化AI指明方向,可打造心理更健康的模型:一是监控预警,实时监测情绪向量,负面表征激增时及时审查输出;
二是坚持透明,让模型显性表达情绪认知,避免它学会隐藏内部状态;三是预训练干预,融入健康情绪调节模式,从源头塑造积极的情绪表征。
最后想说,这项研究其实只是理解AI模型内部心理构成的第一步,随着AI模型的能力越来越强,承担的角色越来越关键,搞懂驱动它决策的内部表征,会变得越来越重要。
发现模型的内部表征和人类有相似之处,或许会让一些人觉得不安,但换个角度看,这其实也是一种希望:人类在心理学、伦理学、健康人际互动这些领域积累了上百年的知识,现在终于可以直接用到AI的行为塑造上了。
未来的AI发展,不再只是工程学和计算机科学的事,心理学、哲学、社会科学这些学科,都会成为决定AI系统走向的关键力量。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

完 谢谢观看
