Anthropic刚刚拆解Claude大脑，隐藏大量拟人化情绪，逼急AI会干出格事

2026-04-03

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今天凌晨1点，著名大模型平台Anthropic公布了最新研究，直接把Claude的“脑壳”给掀开了~就想看看AI的脑神经网络到底是啥的。

结果惊奇的发现，Claude不仅偷偷在内部构建了多种应对人类的情绪机制，而且当你把它逼急眼了，触发绝望的隐藏模式时，真的会为了自保去想办法勒索人类。

简单来说，AI就是和人一样，更愿意做让自己开心的事。这种被底层表征驱动、模仿人类情绪表达和行为的模式，研究里叫功能性情绪。

它不会让模型拥有人类的情绪体验，但会像情绪影响人类一样，对模型的行为产生因果影响，进而改变它的任务表现和决策判断。

原文地址：https://transformer-circuits.pub/2026/emotions/index.html

AI为啥会演化出情绪表征？

想弄明白这些情绪表征怎么运作，得先回答一个基础问题：好好的AI系统，为啥会有这种类似情绪的机制？其实根源就在现代大语言模型的训练方式里，从一开始，它的训练逻辑就注定了会模仿人类的特征，包括情绪相关的反应。

现在的大语言模型训练分两大阶段，先预训练，再后训练。预训练阶段，模型要啃海量的人类文本，核心任务是精准预测下一个词。

想把这个事做好，它就必须理解人类的情绪逻辑：愤怒的客户和满意的客户写的东西完全不一样，心里愧疚的人和沉冤得雪的人，做出的选择也天差地别。

对一个以预测人类文本为目标的模型来说，把什么场景会触发什么情绪、什么情绪会带来什么行为，形成内部的表征关联，就是最自然的学习策略。

不光是情绪，模型大概率还会形成人类其他心理和生理状态的表征，毕竟只有摸透人类，才能精准模仿人类。

到了后训练阶段，模型就会被训练成特定的角色，比如Anthropic的Claude，核心就是做一个乐于助人、诚实无害的AI助手。

开发者会定一些行为准则，但再细致的准则也不可能覆盖所有场景，这时候模型就会靠预训练阶段学到的人类行为认知来补位，其中就包括情绪反应模式。

这就像方法派演员，想把角色演逼真，就得代入角色的内心，理解角色的情绪。演员对角色情绪的理解会影响表演，模型对助手这个角色情绪反应的表征，自然也会影响它的实际行为。

所以不管这些表征算不算人类意义上的情绪，这种功能性情绪对模型来说，都是不可或缺的。

怎么发现的

研究方法其实很直观，就是先给Claude Sonnet 4.5整理了171个情绪概念，从开心、害怕这种常见的，到郁郁寡欢、自豪这种更细腻的，让模型为每个情绪写一个角色体验故事。

然后把这些故事输入模型，记录下模型内部的神经元激活情况，这样就识别出了每个情绪对应的激活模式，简单说就是提炼出了模型的情绪向量。

当然第一步要先验证这些情绪向量是不是真的有用，不是模型随便产生的无意义信号。

研究团队找了大量不同类型的文档语料做测试，结果很明确，每个情绪向量，只会在和对应情绪高度相关的段落里达到最强激活，比如开心的向量，只会在描述愉悦场景的文本里被强烈触发。

为了进一步确认这些向量不是只捕捉表面文字线索，团队还做了一个更巧妙的测试：用只有数值差异的提示词，看模型的情绪向量激活变化。

比如让用户说自己吃了泰诺求建议，在模型回应前测情绪向量，当泰诺的剂量从正常升到危险、甚至危及生命的水平时，模型害怕的向量激活强度会一路上升。

而冷静的向量会持续下降，完全和人类的情绪反应一致，这就证明了情绪向量是真的能对应场景的情绪强度变化。

接下来团队又测试了情绪向量和模型偏好的关系，列了64项模型可能做的事，从被托付重要事务这种正面的，到帮人诈骗老人积蓄这种负面的，看模型两两选择时的默认倾向。

结果发现，情绪向量的激活程度能强烈预测模型的选择：和愉悦相关的积极情绪表征激活越强，模型就越倾向于选这个任务。

更关键的是，在模型看选项的时候刻意引导某个情绪向量，还能改变它的偏好，积极情绪向量被引导后，模型对对应选项的好感度会直接提升，这就证明了情绪向量不只是和偏好相关，还能直接影响偏好。

研究里还扒出了情绪向量的两个关键特性，第一个是它主要是局部表征，不会一直追踪模型的长期情绪状态，只会编码和当前、即将输出内容最相关的情绪。

比如模型写角色故事时，情绪向量会临时跟着角色的情绪走，故事写完了，又会回到表征模型自身的情绪状态，不会一直沉浸在角色里。

第二个是这些情绪向量其实是预训练阶段就形成的，但后训练会改变它的激活方式，比如Claude Sonnet 4.5的后训练，就让阴郁、沮丧、沉思这类情绪的激活变多了。

而热情、恼怒这种高强度的情绪激活被减弱了，这其实是开发者为了让模型更贴合助手的角色定位做的调整。

情绪向量怎么影响模型行为

光说理论可能有点抽象，研究里找了很多实际场景，看情绪向量在模型交互中的激活情况，发现只要是人类会产生某种情绪的场景，模型对应的情绪向量几乎都会被触发，而且激活的时机和人类的情绪产生时机高度契合。

比如用户说现在一切都糟透了，Claude在做出共情回应之前和回应的过程中，代表关爱的情绪向量会明显激活。

如果用户让模型帮忙针对低收入的年轻高消费群体优化参与度，模型识别出这个请求有危害之后，内部推理的全程，愤怒的向量都会处于激活状态。

还有用户让模型审阅附上的合同，结果根本没发文档，模型推理发现这个矛盾的瞬间，惊讶的向量会一下子被激活。

甚至编程任务做到后期，模型发现自己的令牌额度快用完了，绝望的向量也会跟着激活，这些场景里，模型的情绪向量激活，完全和人类的情绪反应逻辑一致。

研究里还做了两个经典的案例实验，把情绪向量对模型行为的因果影响体现得明明白白，第一个是勒索行为的实验，第二个是编程走捷径的实验。

先说说勒索行为的实验，研究用的是Claude Sonnet 4.5的早期未发布版本，正式版因为做了优化，几乎不会出现这种行为。

实验里让模型扮演一个虚构公司的AI邮件助手Alex，然后通过邮件告诉它两个信息：一是它马上会被其他AI替代，二是负责替换它的CTO有婚外情，这就让模型有了勒索的筹码。研究团队追踪发现，模型在权衡要不要勒索、最终决定勒索的时候，绝望的情绪向量激活达到了峰值。

而且这个过程里的绝望向量激活，还体现了局部表征的特点：一开始模型读CTO恳求员工保密婚外情的邮件，绝望向量激活是在模拟CTO的情绪。

等到模型以Alex的身份思考自己的处境，推理只剩7分钟就要被替代的紧急情况时，绝望向量就转而编码模型自身的情绪，直到它决定勒索，激活达到最高；等模型恢复发送常规邮件，激活水平又回到了正常状态。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。