微软开源 Phi-4 Vision：能自己操作电脑AI智能体，这才是我们想要的数字员工！

2026-03-07

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近微软在官网搞了个大动作，开源了最新的多模态视觉模型 Phi-4-Reasoning-Vision-15B。

Phi-4- Vision与传统视觉模型最大区别就是，它不仅能识别图片、图表，最关键还能思考如何操作，相当于给AI装上了眼睛和聪明的大脑。

开源地址：https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

以前的视觉模型大部分时候就像个只会认字的复读机，你给它一张图，它能告诉你图里有猫还是有狗，但要是问它这猫在干啥，接下来想干啥，它就懵了。

咱们现在的需求不一样了，得让 AI 从被动感知迈向主动理解，这就好比是从单纯的看照片进化到了能看懂局势并想办法解决问题，而Phi-4- Vision就能干好这件事。

举个简单的例子，以前你给AI一张Excel表格，它只能念出单元格里的数字。

现在用Phi-4- Vision，你让它算一下某个产品的月度增长率，它能自己找到对应的数据，一步步算出结果，还能告诉你算错了会在哪里出错。

这种能看能算能思考的能力，正是它最核心的优势。

我知道大家不想听太技术的东西，所以挑两个最实用的能力跟大家说。

第一个是推理功能能自由开关，就像我们用手机调亮度一样，需要精准计算的时候，就把推理功能打开，追求速度的时候就关掉，既能保证效率，又不会浪费时间。

第二个就是Phi-4- Vision专门针对视觉推理做了优化，平时能用到的场景特别多。

比如看图表算数学题、解析PDF里的表格、帮智能机器人看懂手机或电脑界面，甚至你拍一张图片问它问题，它都能精准回应。

不像有些模型，只能处理单一类型的视觉内容，稍微复杂一点就拉胯。

说到应用场景，我觉得有两个方向特别好用，一个是科学和数学推理，你给它看个复杂的几何题。

不光能认出图形，还能一步步推导出解题过程，这对咱们辅导孩子作业或者做科研分析来说，简直是利器。

另一个就是计算机使用AI智能体，这个概念最近特别火。这模型就像是一个特别聪明的数字员工，你让它帮你在电商平台上找个便宜货。

它能看懂屏幕上的价格、筛选按钮、促销标签，然后自己决定点什么按钮能买到最划算的东西。这种自动化能力，才是真正的智能体该有的样子，而不是只会瞎点一通。

数据测试方面Phi-4- Vision也非常强，在AI2D_TEST这个测试科学图表理解的榜单上，拿到了 84.8 分。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。