三甲主治医生被惨虐，AI问诊反超人类20分，这波进化太狠了

2026-02-11

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

以前咱们总觉得，AI看病顶多是个翻书的实习生，遇到疑难杂症还得靠老专家的经验。

但这次百川智能开源的M3真的有点不讲武德，在医学临床问诊、推理的测试中，M3得到74.9分，竟然比三甲医院拥有至少5年经验的主治医生高了20多分。

就连OpenAI的GPT-5.2High也只拿到了62.5分。AI不再是被动等问题，而是像老主任一样主动追问、排查风险，逻辑严密得让人害怕，M3这波进化太狠了。

开源地址：https://huggingface.co/collections/baichuan-inc/baichuan-m3

咱们先来聊聊现在医疗AI遇到的各种尴尬事。现在市面上的模型，要么就是做题家，单轮问答能拿满分，一到复杂的多轮问诊就歇菜，容易一本正经地胡说八道。

要么就是那种陪聊型，嘴特别甜，问诊过程很顺畅，但最后下诊断的时候推理深度不够，容易漏诊。

这就像是一个偏科严重的学生，理科满分但语文零分，或者是反过来。根本原因在于训练的时候，不同任务的环境差别太大。

而且模型在长对话里搞不清哪一步走对了、哪一步走错了，这就导致了它在提升推理能力的时候很容易产生幻觉，也就是编造医疗事实。

百川这次就是想彻底打通这个任督二脉，让模型既能像老医生一样严谨地推导，又能像知心大姐一样耐心地问诊。

为了实现这个目标，百川团队给Baichuan-M3搭了一套相当硬核的全链路训练设施。

这里面有个很好玩的设计叫做双模式患者模拟器。以前训练模型，模拟的患者太老实或者太刁钻都不好，这次他们搞了一个被动性格的患者，而且把问诊分成了两种情况。

一种就像你刚进诊室，啥情况都不知道，完全靠医生去主动挖掘信息，这占百分之75%的概率。剩下25%则是在问诊中间突然插进来，模拟患者突然焦虑地问医生我这病严不严重啊能不能治好啊这种打断。

为了不让模拟器学歪了，他们还用了非对称可见性，就是模型能看见之前的对话，但模拟器假装没看见，保证回答的真实性。

这种设计就像是给AI医生安排了一场场高强度的模拟考，既有常规病例，也有那种突发状况的急诊演练，确保它在真实上线的时候不会被患者的各种突发提问给绕晕。

光有患者模拟还不够，医生的每一个诊断还得有人把关。这里他们用了一个双验证流融合系统。简单来说，就是找了两个裁判，一个裁判专门盯着你有没有违反诊疗规矩。

比如有没有漏问关键信息，开单子规不规范。另一个裁判则是事实验证员，专门去翻权威的医疗指南，看你嘴里说出来的每一句话是不是有根有据。

以前很多模型为了讨好奖励模型，会顺嘴编一些听起来很厉害但实际上没依据的细节，这在医疗上可是大忌。

Baichuan-M3把这两部分拆开了，规则验证器管流程对不对，事实验证器管事实真不真。

而且为了查事实的时候不卡顿，他们还搞了两级缓存，把查过的内容存起来，速度一下子就上去了，不然训练起来慢得像蜗牛爬。

有了这些基础设施，接下来就是怎么把模型教聪明了。他们把训练过程分成了三个阶段，听起来像是在培养特种兵。

第一阶段是分科训练，让不同的老师傅带不同的徒弟，有的专门学怎么问诊，有的专门学怎么给咨询建议，先把各自的本事练到极致。

第二阶段是把这些老师傅的本事压缩到一个学生模型脑子里，这时候学生就是一个模仿者，努力去记住老师傅的每一个动作。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。