智能体重大突破！谷歌刚发布Agentic Vision ，AI终于能像人一样观察了

2026-01-28

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今天早上6点，谷歌发布了Gemini 3 Flash 全新功能Agentic Vision智能视觉，将静态图像理解升级为智能交互流程。

这个功能主要融合了视觉推理与代码执行，以思考 - 行动 - 观察闭环运作，依托视觉证据输出答案。

还能让多数视觉基准测试的效果稳定提升5%-10%，是视觉AI智能体的重大突破。

体验地址：https://aistudio.google.com/prompts/new_chat?model=gemini-3-flash-preview

详细说明文档：https://ai.google.dev/gemini-api/docs/code-execution?hl=zh-cn#images

你有没有试过让AI看一张特别复杂的图，比如那种满是细节的建筑图纸或者密密麻麻的电子元件？很多时候AI就是那种大概看一眼，然后就开始蒙。

这就好比你让一个远视眼的人去读一本小字书，他根本看不清就只能瞎猜。这就是传统AI处理图像的方式，一次性看完，看到多少算多少。

谷歌这次在Gemini 3 Flash里加了个叫Agentic Vision的功能，说白了就是让AI学会了像人一样看东西。

它不再是那种只看一眼就下结论的急脾气，而是会仔细琢磨，觉得哪里没看清楚就凑近了再看。

这个功能最核心的地方就是它把视觉理解变成了一套很灵活的流程。AI拿到一张图后，会先琢磨一下用户到底想知道什么，然后制定一个计划。

这个计划可能包含好几步，比如先看看整体情况，再放大某个区域仔细瞧瞧，甚至可以把图旋转一下换个角度看。

说到这你可能要问，AI怎么放大或者旋转图片呢？其实它不是真的凑到屏幕前去眯眼看，而是通过写Python代码来操作图片。听起来有点绕对吧，我给你打个比方。

这就好比你要研究一幅复杂的古画，你可以用放大镜一块一块地看，甚至把局部打印出来贴在墙上慢慢研究。AI做的事情本质上是一样的，只不过它的放大镜是代码而已。

这个做法带来的效果还挺明显的。谷歌说在大多数视觉测试任务上，准确率能提升5%到10%。你别觉得这个数字小，在AI领域这个提升已经相当可观了。

现在来聊聊具体能用它干啥。第一个场景就是检查特别精细的细节。有个叫PlanCheckSolver的平台专门验证建筑图纸，他们用这个新功能后准确率提高了5%。

AI会把图纸切成小块，逐个区域去检查细节，比如屋顶的边缘啊，建筑结构啊什么的，确保符合那些复杂的建筑规范。这就像以前验收房子时，验收员拿着清单一项项核对，现在AI也能这么干了。

第二个场景是给图片做标注。以前AI只能用文字描述它看到了什么，现在它可以直接在图片上画出来。举个例子，你让它数数一共有几根手指，它不仅告诉你数字，还会给每根手指画个框标上编号。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。