仅4B参数死磕找图！微软这波反向操作太野，0门槛锁定画面目标

2026-05-10

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

微软最近开源了一个创新专属模型Phi-Ground-Any-4B，是从Phi-3.5-vision-instruct基础之上微调而成的。

Any-4B只专注干一件事，就是你告诉它图片里要找什么，就能给你指出来那个东西在哪。

听起来好像不算啥新鲜事对吧，但等你真正上手用过就会发现，这玩意确实有点东西。

开源地址：https://huggingface.co/microsoft/Phi-Ground-Any

咱们就好好唠唠这个新模型的亮点功能。Any-4B对输入图片的分辨率有固定要求，必须得是1680乘1008这个尺寸。

你可能会好奇为啥偏偏是这个数字，其实是因为它内部用的是5乘3的网格画布，每个小格子336像素，5乘336就是1680，3乘336就是1008。

你可以把它想象成一块白板，上面画了15个方格，你的图片会被缩放后贴到这块白板的左上角，剩下的空白区域就用白色填满。

这么设计的好处是什么呢，就是模型看到的每张图片格式都是统一的，不用来回适应不同尺寸，处理起来更稳定更高效。就好比你读书的时候，老师总要求统一用某种格式的笔记本，看着整齐，批改也方便。

跟这个模型交互的时候，你得先说指令，然后再给图片，顺序不能乱。它不像有些模型你可以随意编排输入顺序，这里必须严格遵守指令在先图片在后。

而且它还要求带系统提示词，整体格式是比较死板的。不过这种死板换来的是稳定性，你按它的规矩来，它就能稳稳当当地给你反馈结果。

那给你的答案长啥样呢？这个部分可能是最让人挠头的地方了。模型输出的结果不是那种你能一眼看懂的文字描述，而是一串数字。

AI会把你想要定位的那个点，用两个0到10000之间的数值来表示横纵坐标，然后以特定的标签格式输出。

这两个数值代表的是在它那块1680*1008白色画布上的相对位置，而不是你原始图片上的像素位置。

所以如果你想得到原图上真正的像素坐标，还需要做一层换算。换算过程说起来也不算太复杂，先把数值除以10000得到比例，再乘以画布的宽或高拿到画布上的像素坐标。

最后再除以之前缩放图片时产生的缩放比例，就能还原出原图上的真实位置了。

打个比方，就好像你拿了一张缩小版的地图，上面标注了某个地点的比例坐标，你要想知道实际位置，得先按地图比例尺算出地图上的厘米数，再换算回真实世界的距离。

跑这个模型需要一些依赖包，transformers要4.43.0版本，torch要2.3.0版本，flash_attn要2.5.8版本。

还有numpy、Pillow、Requests、torchvision、accelerate这些，各自都有对应的版本号。建议大家在配环境的时候严格按照它给的版本来。

配好环境之后，你可以选择用huggingface的transformers库来跑推理，也可以用vllm来跑。

两种方式各有各的好处，huggingface的方式上手简单文档也多，适合刚接触的朋友；vllm的话在大批量推理的时候速度优势比较明显，适合对性能有更高要求的场景。

我觉得这个模型最大的特点就是专而精。不搞那些花里胡哨的多功能，就专注在图片定位这一件事上，而且做到了足够好用。

4B的参数量也不算大，普通显卡就能跑得动，不像有些动辄上百亿参数的模型，光加载就要等半天。

当然也不是没缺点，输出坐标需要二次换算这事儿确实有点折腾，对纯小白来说上手还是得稍微动点脑筋。

如果你手头正好有图片目标定位的需求，比如搞搞数据标注或者做个交互式小工具，那它真的值得一试。

想系统掌握AI核心技能、获取行业认可资质？

CAIE注册人工智能工程师认证

助你拓宽职业赛道，成为AI领域持证实力派

微信小程序

CAIE 认证

CAIE认证

以上内容来自微信小程序

企业、高校及渠道合作

请联系微信：FYLlaoshi

完谢谢观看

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。