微软新开源炸场!1个token顶3个用,终结大模型推理难题

2026-01-21

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

AI大模型在解决数学推理、逻辑分析这类复杂任务时,有个常用的技巧叫思维链提示法。就是让模型像人做题那样,一步步写出推理过程,最后再给答案,效果确实挺明显。

但问题也很突出,每一条推理路径都要生成一长串文字,就像写作文似的,又长又占资源,探索不同思路时特别费劲。

为了终结这个大难题,微软和宾夕法尼亚大学的研究人员联合开源了Multiplex Thinking框架

开源地址:https://github.com/GMLR-Penn/Multiplex-Thinking

笑脸:https://huggingface.co/Multiplex-Thinking

要明白Multiplex Thinking有多牛,咱得先说说之前那些方法的痛点,核心就是推理效果、效率和探索能力,这三者总凑不到一块。

传统的思维链就像是那种做数学题必须把每一步草稿纸都写得满满当当的学霸,虽然最后答案是对的,但中间过程太长了,你要是想让它试几条不同的路子,那写下来的字数简直吓死人,计算成本也是按线性往上翻倍

后来有人想了个招,说能不能别把每个字都写出来,直接把好几步的意思压缩成一个稠密的向量,这确实省地儿,推理过程变短了,但问题是模型变傻了。

因为它每次都是固定的套路,完全没了那种天马行空的试错能力,这对于需要通过不断尝试来进步的强化学习来说简直就是灾难。

现在的困境就是,要么要效果但成本太高,要么要成本但效果太死板,想要两全其美简直比登天还难。

Multiplex Thinking这个技术的脑回路确实清奇,不搞那种非此即的选择,而是直接整了个并行的路子。咱们可以把它想象成在一个岔路口,以前的传统模型只能硬着头皮选一条路走到黑。

Multiplex Thinking呢,到了关键节点,会瞬间分身成好几个影子。

比如K等于3的时候,就一下子派出三个探路者,每人选一个方向走一步,然后不管这三个探路者走的结果一样还是不一样,它都把这三个人的经历融合总结,变成一个新的高维信息包扔给下一步。

这一招真的很妙,因为它既保留了原本离散采样那种随机的灵性,又通过融合压缩了信息,相当于一步顶了以前好几步用

这个过程最精彩的地方在于它的自适应能力,完全不用人工去干预。当模型对下一步特别有把握的时候,那几个探路者选的路往往都是一样的,这时候它就乖乖地像传统模型一样正常推理,不搞那些花里胡哨的;

可一旦到了模棱两可的关键路口,探路者们就会各执一词,有的往东有的往西,这时候Multiplex Thinking就会把这些分歧点全都记录下来,形成一个包含了多种可能性的信息包。

这就像是我们做决定时,把所有备选方案的优缺点都揉在一起考虑,而不是死盯着某一个选项,这样一来,模型在探索未知领域的时候,搜索空间直接就呈指数级暴涨了,能发现很多以前那种一根筋思维根本找不到的解题捷径。

而且这项技术跟强化学习简直是天作之合。我们知道强化学习讲究个试错,得让模型多尝试不同的路径才能知道哪条最好,以前的压缩方案因为太死板,根本没法随机采样,所以强化学习那套根本玩不转。

现在Multiplex Thinking本质上还是基于离散采样的,每一步都是真真切切算出来的概率,所以强化学习的奖励信号可以顺藤摸瓜,精准地反馈到每一步的决策上。

这意味着模型不仅能把题做对,还能慢慢学会怎么更聪明地利用这种分身术,整个训练过程就特别顺畅,不会出现那种怎么练都练不上去的瓶颈。

为了测试Multiplex Thinking的性能,研究团队用了1.5B7B两个规模的模型,测试了六个高难度的数学推理数据集,还和三种主流方法做了对比。

测试指标也很全面,既有单次采样的准确率,也有多次采样的准确率,能全方位看出模型的推理能力和探索潜力。

确定要退出登录吗?
确定 取消
推广有奖