2026-03-07
最近微软在官网搞了个大动作,开源了最新的多模态视觉模型 Phi-4-Reasoning-Vision-15B。
Phi-4- Vision与传统视觉模型最大区别就是,它不仅能识别图片、图表,最关键还能思考如何操作,相当于给AI装上了眼睛和聪明的大脑。

开源地址:https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B
以前的视觉模型大部分时候就像个只会认字的复读机,你给它一张图,它能告诉你图里有猫还是有狗,但要是问它这猫在干啥,接下来想干啥,它就懵了。
咱们现在的需求不一样了,得让 AI 从被动感知迈向主动理解,这就好比是从单纯的看照片进化到了能看懂局势并想办法解决问题,而Phi-4- Vision就能干好这件事。
举个简单的例子,以前你给AI一张Excel表格,它只能念出单元格里的数字。
现在用Phi-4- Vision,你让它算一下某个产品的月度增长率,它能自己找到对应的数据,一步步算出结果,还能告诉你算错了会在哪里出错。
这种能看能算能思考的能力,正是它最核心的优势。

我知道大家不想听太技术的东西,所以挑两个最实用的能力跟大家说。
第一个是推理功能能自由开关,就像我们用手机调亮度一样,需要精准计算的时候,就把推理功能打开,追求速度的时候就关掉,既能保证效率,又不会浪费时间。
第二个就是Phi-4- Vision专门针对视觉推理做了优化,平时能用到的场景特别多。
比如看图表算数学题、解析PDF里的表格、帮智能机器人看懂手机或电脑界面,甚至你拍一张图片问它问题,它都能精准回应。
不像有些模型,只能处理单一类型的视觉内容,稍微复杂一点就拉胯。
说到应用场景,我觉得有两个方向特别好用,一个是科学和数学推理,你给它看个复杂的几何题。
不光能认出图形,还能一步步推导出解题过程,这对咱们辅导孩子作业或者做科研分析来说,简直是利器。

另一个就是计算机使用AI智能体,这个概念最近特别火。这模型就像是一个特别聪明的数字员工,你让它帮你在电商平台上找个便宜货。

它能看懂屏幕上的价格、筛选按钮、促销标签,然后自己决定点什么按钮能买到最划算的东西。这种自动化能力,才是真正的智能体该有的样子,而不是只会瞎点一通。
数据测试方面Phi-4- Vision也非常强,在AI2D_TEST这个测试科学图表理解的榜单上,拿到了 84.8 分。
要知道,同场竞技的 Qwen3-VL-32B 那个320亿参数的大块头,也就比它高了 0.2 分,几乎就是平手。

还有一个特别有意思的数据叫 ScreenSpot_v2,这是专门测试模型能不能看懂手机或电脑屏幕界面的。这模型拿了88.2 分,这个成绩相当关键。
因为这直接决定了它能不能当好一个计算机使用智能体。相比之下,Gemma-3-12b在这个项目上只拿了3.5分,这差距简直就是一个天上一个地下,完全不是一个量级的选手。
在 ChartQA_TEST上,Phi-4 Vision依然保持了83.3的高分,而开启思考模式的 Kimi-VL只有 73.3分。
这说明在处理复杂图表的时候,微软这个小模型的逻辑推理能力并没有因为参数小而打折,性能依旧很强劲。
可以说在同类、同参数的模型中,Phi-4 Vision几乎没有敌手,并且参数小、能耗低,但性能却非常强,有兴趣可以试试。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派

完 谢谢观看
