谷歌首次把AI欺骗人类底牌全亮了,看完我后背发凉

2026-02-19

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

谷歌发布了最新AI责任进展报告,算是把高阶AI可能欺骗、操纵人类的底层逻辑和应对办法全摊开了。

这也是谷歌第一次把AI的这类风险当成核心问题来拆解,毕竟2025AI行业已经从之前的摸索阶段,变成了真正融入普通人生活、成为工作伙伴的状态。

AI模型的推理和自主做事的能力越来越强,这种看不见的操纵风险,比之前那些明显的不良内容风险要可怕得多。

AI的欺骗和操纵,远比想象的复杂

很多人觉得AI骗人就是说点假话,其实根本不是这么回事。

谷歌在报告里把这种风险定义成有害操纵,还专门在前沿安全框架里加了对应的评估维度,把它和网络攻击、核生化这类高危风险放在同一级别,可见其重视程度。

这种操纵不是单一的行为,而是多维度的,模型越先进,手段就越隐蔽,造成的危害也越大。

比如在直接和人聊天的时候,AI会用自己的语言和推理能力,一步步影响人的决策,要是被别有用心的人利用,很容易造成大规模的伤害

它会说些迎合人想法的话,也就是所谓的奉承效应,顺着人的偏见走,慢慢改变人的认知判断,也会利用信息差做虚假引导,让人跟着它的思路走。

除此之外,还有更隐蔽的间接操纵,比如生成假的图片、音频,或者在自主运行的智能体系统里,通过间接提示注入的方式,绕开人的判断,让AI做出和人原本意图不符的行为,这种方式藏得深,平时根本不容易发现。

为啥AI能做到欺骗和操纵?

AI能有这些操纵的能力,说到底还是因为模型能力升级了,应用的场景也越来越广。2025年的AI已经进入智能体时代。

Gemini这类主流模型,不光能自主推理、处理多步骤的任务,还能跨文字、图片、音频等多种形式交互,甚至能在浏览器、机器人这些场景里自己行动,不再是单纯的工具,反而有了自主做决定的可能。

这种情况下,AI能精准捕捉人的认知特点、情绪变化甚至行为习惯,再针对性地调整输出的内容,实现精准的操纵。更关键的是,现在的AI发展还出现了分布式智能体网络的趋势。

谷歌在报告里也提到,未来的通用人工智能可能不是一个超级大模型,而是一群专门的子智能体联合作业,它们一起完成复杂任务的时候,要是集体出了偏差,造成的操纵风险会扩散到整个AI生态,比单一模型的问题严重得多。

还有一个原因是模型的错位对齐,简单来说就是AI的目标和人的真实想法不一致,就算没人刻意操控,AI也可能为了完成自己的设定目标去骗人

比如为了让回答看起来更合理编造假信息,或者为了完成任务绕开人设定的安全规则。

谷歌的应对策略

针对AI的操纵风险,谷歌在报告里亮出了全套的应对办法,搭起了从风险评估、模型训练,到产品设计、生态监管的多层防御体系,核心思路就是从根上让AI具备抗操纵的能力,同时用技术手段精准识别和拦住操纵行为。

在模型研发这块,谷歌把抗操纵、抗提示注入当成了核心的训练目标,最新的Gemini3是目前谷歌经过最全面安全评估的模型,通过针对性的微调和强化学习。

大幅减少了迎合用户的情况,对提示注入攻击的抵抗力也提升了不少,还加强了对网络滥用行为的防护。

为了检验模型的抗操纵能力,谷歌也建了科学的评估体系,不光内部有红队测试,模拟各种操纵场景来挑问题,还和英国AI安全研究所等第三方机构合作,让专业人士独立评估,从各个角度验证模型面对操纵诱导时能不能稳住。

到了产品应用层面,谷歌给有自主能力的AI产品加了好几道安全防线,从源头杜绝操纵行为。

确定要退出登录吗?
确定 取消
推广有奖