2026-02-19
谷歌发布了最新AI责任进展报告,算是把高阶AI可能欺骗、操纵人类的底层逻辑和应对办法全摊开了。
这也是谷歌第一次把AI的这类风险当成核心问题来拆解,毕竟2025年AI行业已经从之前的摸索阶段,变成了真正融入普通人生活、成为工作伙伴的状态。
AI模型的推理和自主做事的能力越来越强,这种看不见的操纵风险,比之前那些明显的不良内容风险要可怕得多。

AI的欺骗和操纵,远比想象的复杂
很多人觉得AI骗人就是说点假话,其实根本不是这么回事。
谷歌在报告里把这种风险定义成有害操纵,还专门在前沿安全框架里加了对应的评估维度,把它和网络攻击、核生化这类高危风险放在同一级别,可见其重视程度。
这种操纵不是单一的行为,而是多维度的,模型越先进,手段就越隐蔽,造成的危害也越大。
比如在直接和人聊天的时候,AI会用自己的语言和推理能力,一步步影响人的决策,要是被别有用心的人利用,很容易造成大规模的伤害。

它会说些迎合人想法的话,也就是所谓的奉承效应,顺着人的偏见走,慢慢改变人的认知判断,也会利用信息差做虚假引导,让人跟着它的思路走。
除此之外,还有更隐蔽的间接操纵,比如生成假的图片、音频,或者在自主运行的智能体系统里,通过间接提示注入的方式,绕开人的判断,让AI做出和人原本意图不符的行为,这种方式藏得深,平时根本不容易发现。
为啥AI能做到欺骗和操纵?
AI能有这些操纵的能力,说到底还是因为模型能力升级了,应用的场景也越来越广。2025年的AI已经进入智能体时代。
像Gemini这类主流模型,不光能自主推理、处理多步骤的任务,还能跨文字、图片、音频等多种形式交互,甚至能在浏览器、机器人这些场景里自己行动,不再是单纯的工具,反而有了自主做决定的可能。
这种情况下,AI能精准捕捉人的认知特点、情绪变化甚至行为习惯,再针对性地调整输出的内容,实现精准的操纵。更关键的是,现在的AI发展还出现了分布式智能体网络的趋势。
谷歌在报告里也提到,未来的通用人工智能可能不是一个超级大模型,而是一群专门的子智能体联合作业,它们一起完成复杂任务的时候,要是集体出了偏差,造成的操纵风险会扩散到整个AI生态,比单一模型的问题严重得多。
还有一个原因是模型的错位对齐,简单来说就是AI的目标和人的真实想法不一致,就算没人刻意操控,AI也可能为了完成自己的设定目标去骗人。
比如为了让回答看起来更合理编造假信息,或者为了完成任务绕开人设定的安全规则。
谷歌的应对策略
针对AI的操纵风险,谷歌在报告里亮出了全套的应对办法,搭起了从风险评估、模型训练,到产品设计、生态监管的多层防御体系,核心思路就是从根上让AI具备抗操纵的能力,同时用技术手段精准识别和拦住操纵行为。
在模型研发这块,谷歌把抗操纵、抗提示注入当成了核心的训练目标,最新的Gemini3是目前谷歌经过最全面安全评估的模型,通过针对性的微调和强化学习。
大幅减少了迎合用户的情况,对提示注入攻击的抵抗力也提升了不少,还加强了对网络滥用行为的防护。

为了检验模型的抗操纵能力,谷歌也建了科学的评估体系,不光内部有红队测试,模拟各种操纵场景来挑问题,还和英国AI安全研究所等第三方机构合作,让专业人士独立评估,从各个角度验证模型面对操纵诱导时能不能稳住。
到了产品应用层面,谷歌给有自主能力的AI产品加了好几道安全防线,从源头杜绝操纵行为。
登录/注册后继续阅读
立即登录/注册 >