上海AI实验室开源180万高精数据集，媲美GPT-5、Gemini-3

2026-02-02

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近上海人工智能实验室联合上海交大、北大、港大等一票大牛，开源了一个高精准多模态数据集MMFineReason。

这个数据集一共有180万样本，包含51亿个解决方案tokens，在使用该数据集训练的大模型，可以媲美GPT-5、Gemini-3等顶级闭源模型。

开源地址：https://huggingface.co/collections/OpenDataArena/mmfinereason

咱们都知道，像GPT-5或者Gemini3这种大模型，数学题做得好，看图推理也厉害，但这背后其实是有秘密的。它们都吃了海量且精心整理的私有数据，这就像人家是吃着米其林大厨特供的营养餐长大的，身体自然壮实。

反观开源社区，大家手头的资源就比较寒酸了。现有的开源数据集不仅数量不够，质量也参差不齐，特别是在那些特别烧脑的STEM图表或者视觉谜题领域，高质量的标注少得可怜。而且，很多标注缺乏连贯的长形式思维链。

所以，研究团队把火力全集中在了高质量数据上。MMFineReason里面足足装了180万个样本，解决方案的标记数量更是达到了惊人的51亿个。

更关键的是，这些高质量的推理标注都不是人工死磕出来的，而是蒸馏自目前最强的开源大模型Qwen3-VL-235B-A22B-Thinking，相当于把学霸的脑子里的解题思路给复制了下来。

不过这数据集也不是随便堆出来的，人家那是走了一套非常严谨的三段式流水线，每一步都抠得特别细。

第一阶段就是大规模的收集和标准化。团队先是从开源社区把各种各样现成的多模态数据集都扒拉下来，以FineVision数据集为基础，人工筛掉了那些跟STEM、推理八竿子打不着的内容，只留下有营养的干货。

为了让覆盖面更广，他们又特意把BMMR、Euclid30K这些高质量的数学、科学以及视觉游戏谜题数据集给混了进来。

到了第二阶段，就是最核心的思维链推理逻辑生成了。为了让数据集里的每道题都有高质量的解题过程，团队选了Qwen3-VL-235B-A22B-Thinking做老师。

这老师特别厉害，它解题的时候得严格按照四步走，先是把所有信息都扒拉清楚，然后搭建解题策略，接着是一步一步严谨地执行计算，最后还得验证结果对不对。

第三阶段就是综合筛选了。原始数据集虽然大，但肯定有水分，得把杂质挤出去。

先是模板和长度验证，没按规矩输出的、过程写得特别短的，直接踢掉。然后是去重，要是发现一段推理里有重复的套话或者重复的词组，说明是糊弄事，要么删了要么重写。

最狠的是正确性验证，拿老师给出的答案和标准答案对一对，凡是推理错的或者胡编乱造的，哪怕再花哨也不要。

这一轮下来，差不多两成的水分被挤掉了。最后剩下来的就是精华，也就是那180万样本、51亿标记的高质量MMFineReason数据集。

为了验证MMFineReason数据集到底好不好用，研究团队基于Qwen3-VL-Instruct模型，分别在2B、4B、8B三种参数规模下进行微调。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。