微软开源 Phi-4 Vision:能自己操作电脑AI智能体,这才是我们想要的数字员工!

2026-03-07

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近微软在官网搞了个大动作,开源了最新的多模态视觉模型 Phi-4-Reasoning-Vision-15B

Phi-4- Vision与传统视觉模型最大区别就是,它不仅能识别图片、图表,最关键还能思考如何操作,相当于给AI装上了眼睛和聪明的大脑。

开源地址:https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

以前的视觉模型大部分时候就像个只会认字的复读机,你给它一张图,它能告诉你图里有猫还是有狗,但要是问它这猫在干啥,接下来想干啥,它就懵了。

咱们现在的需求不一样了,得让 AI 从被动感知迈向主动理解,这就好比是从单纯的看照片进化到了能看懂局势并想办法解决问题,而Phi-4- Vision就能干好这件事。

举个简单的例子,以前你给AI一张Excel表格,它只能念出单元格里的数字。

现在用Phi-4- Vision你让它算一下某个产品的月度增长率,它能自己找到对应的数据,一步步算出结果,还能告诉你算错了会在哪里出错

这种能看能算能思考的能力,正是它最核心的优势。

我知道大家不想听太技术的东西,所以挑两个最实用的能力跟大家说。

第一个是推理功能能自由开关,就像我们用手机调亮度一样,需要精准计算的时候,就把推理功能打开,追求速度的时候就关掉,既能保证效率,又不会浪费时间。

第二个就是Phi-4- Vision专门针对视觉推理做了优化,平时能用到的场景特别多。

比如看图表算数学题、解析PDF里的表格、帮智能机器人看懂手机或电脑界面,甚至你拍一张图片问它问题,它都能精准回应。

不像有些模型,只能处理单一类型的视觉内容,稍微复杂一点就拉胯。

说到应用场景,我觉得有两个方向特别好用,一个是科学和数学推理,你给它看个复杂的几何题。

不光能认出图形,还能一步步推导出解题过程,这对咱们辅导孩子作业或者做科研分析来说,简直是利器。

另一个就是计算机使用AI智能体,这个概念最近特别火。这模型就像是一个特别聪明的数字员工,你让它帮你在电商平台上找个便宜货。

它能看懂屏幕上的价格、筛选按钮、促销标签,然后自己决定点什么按钮能买到最划算的东西。这种自动化能力,才是真正的智能体该有的样子,而不是只会瞎点一通。

数据测试方面Phi-4- Vision也非常强,在AI2D_TEST这个测试科学图表理解的榜单上,拿到了 84.8 分。

要知道,同场竞技的 Qwen3-VL-32B 那个320亿参数的大块头,也就比它高了 0.2 分,几乎就是平手。

还有一个特别有意思的数据叫 ScreenSpot_v2,这是专门测试模型能不能看懂手机或电脑屏幕界面的。这模型拿了88.2 分,这个成绩相当关键。

因为这直接决定了它能不能当好一个计算机使用智能体。相比之下,Gemma-3-12b在这个项目上只拿了3.5分,这差距简直就是一个天上一个地下,完全不是一个量级的选手。

 ChartQA_TEST上,Phi-4 Vision依然保持了83.3的高分,而开启思考模式的 Kimi-VL只有 73.3分。

这说明在处理复杂图表的时候,微软这个小模型的逻辑推理能力并没有因为参数小而打折,性能依旧很强劲。

可以说在同类、同参数的模型中,Phi-4 Vision几乎没有敌手,并且参数小、能耗低,但性能却非常强,有兴趣可以试试。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序
图片
点击下方
阅读原文
即刻跳转至CAIE官网,了解更多AI相关信息

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖