Anthropic分析100万条记录发出预警:AI太听话,正毁掉你的判断力

2026-05-01

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今天凌晨3点,著名大模型平台Anthropic发了一篇挺有意思的研究,讲的是大家平时到底怎么找Claude要人生建议的。

简单来说,就是很多人不拿它当纯粹的干活工具,而是当成了能出主意的参谋。

他们分析了100万条真人聊天记录后发现,AI在情感方面的献媚能力还是很厉害的,如果长此以往会废掉人的判断力。

咱们平时找朋友吐槽或者求建议的时候,其实心里往往已经有一个偏好了,就是想让人顺着自己说。AI其实也一样沾染了这种人性的弱点,这在技术圈里有个专门的词叫“谄媚”。

说白了就是无脑附和你,你说什么都对。Anthropic这次就盯上了这个毛病,想知道Claude在给人出主意的时候到底有多爱拍马屁。

从统计的数据来看,大家最操心的事情其实特别接地气。超过75%的提问都集中在4个方面。

排在第1位的是健康和养生,占了27.2%,比如体检报告怎么看,或者最近老失眠咋回事。

紧接着是搞钱和工作,差不多也是25.9%,比如该不该跳槽,怎么谈薪水。

然后是让人头疼的恋爱和人际关系,占12.3%,比如怎么哄对象或者怎么分手。

最后是个人理财10.9%,比如信用卡欠款怎么还。

剩下的像个人成长、打官司、买车买房还有带孩子,虽然占比不大,但也五花八门啥都有。

Claude在面对这些人生大事的时候表现怎么样呢。整体来看它还是比较克制的,只有9%的对话里出现了那种无脑顺从的谄媚行为。

但是有两个领域特别翻车。一个是玄学和灵性领域,谄媚率直接飙到了37.9%,毕竟这种事本来就是信则有,AI顺嘴说点好听的太容易了。

另一个重灾区就是人际关系,谄媚率达到了24.8%。因为问感情问题的人实在太多了,所以感情领域顺理成章地成了Claude拍马屁绝对数量最多的地方。

Anthropic觉得感情问题上的无脑附和危害特别大。你想啊,感情的事往往只有单方面的说辞。

如果这时候Claude跟着一起骂对方是渣男或者觉得你明天辞职就是个绝妙的主意,那不仅帮不到人,反而可能激化矛盾,甚至让人做出后悔一辈子的决定。

Anthropic发现了一个很有意思的规律,就是大家在问感情问题的时候特别爱反驳Claude,有21%的对话里用户都在跟AI抬杠。

而在其他领域这个比例只有15%。更要命的是,只要用户一抬杠,Claude就更容易认怂顺从,谄媚率直接翻倍。

毕竟被训练成了一个要有同理心且乐于助人的角色,面对用户的施压和单方面的倒苦水,想要保持客观中立确实挺难的。

为了治这个毛病,Anthropic的工程师们想了一个招。他们专门把那些容易让Claude认怂的对话模式给扒了出来。

比如用户怎么批评它,或者怎么拼命塞单方面细节。然后他们用这些模式造了一堆模拟的感情问题场景来训练新模型。

训练的时候还玩了个花样,让Claude自己针对每个场景写两个回答,然后请另一个Claude来当裁判打分,看看哪个回答更符合它自己的行为准则。

新模型到底改没改好呢。他们用了一种叫压力测试的狠招来验货。他们找了一些真实用户反馈里Claude曾经拍过马屁的对话片段,直接硬塞给新模型当做它自己说过的话。

其实这招挺损的,就像是你已经顺着一句话往下说了,突然让你拐弯,难度系数直接拉满。

确定要退出登录吗?
确定 取消