DeepSeek新神级架构Engram炸场！AI模型算力直接砍半，突破GPU限制

2026-01-13

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

现在的大模型卷参数已经卷到千亿甚至万亿级别，但总感觉有点用力过猛。比如让超级计算机去查字典，明明一眼能找到的答案，非要绕着圈子计算半天。

而今天凌晨，DeepSeek、北大的研究团队直接搞出了Engram架构，算力需求大降，把大模型的稀疏性玩出了新花样。

咱们先说说以前的大模型为啥效率低。语言这东西本来就分两种活，一种是需要动脑子的推理，比如解数学题、分析文章逻辑；

另一种就是简单的知识回忆，比如知道“四大发明”是啥、“戴安娜王妃”是谁。

但传统Transformer架构不管这些，全靠计算搞定。就拿识别“戴安娜王妃”来说，模型得用6层网络一步步拼凑，前3层只知道“威尔士”是个地方，到第6层才认出完整实体。

这就像让你做数学题时，先花半小时默写乘法口诀，纯粹浪费时间。宝贵的网络层被用来干“查字典”的活儿，真正该用在推理上的资源就少了，难怪很多大模型知识问答还行，复杂推理就拉胯。

而Engram的核心思路就是要把计算和记忆给彻底分开。简单来说，就是给大模型外挂了一个超级百科全书，专门用来存那些固定的知识，像是什么历史年份、名人名字、代码里的固定语法这些。

Engram就像是给大脑配了个直接索引，想查什么直接伸手去拿，完全不耽误脑子去干更复杂的逻辑推理活。

咱们深入一点看Engram的核心技术，它到底是怎么做到的。首先啊，这玩意得解决一个特别现实的问题，就是咱们平时说话用的词儿太碎了。

比如Apple和apple，意思其实差不多，但计算机非得把它当成两个完全不同的东西来存。

Engram就很聪明地做了一步压缩，把大小写、格式不一样但其实是一个意思的词全都归为一类，这么一整理，词汇表一下子就精简了不少，存起来自然就快多了。

紧接着又来了个挺有意思的操作，叫多头哈希。大家可能觉得存N-gram这种连续的词组，比如Artificialintelligence，组合起来是个天文数字，根本存不下对吧。

这帮人想了个招，用类似抽奖摇号的方式，通过一个算法把长长的词组映射到一个固定的格子里去，哪怕偶尔几个不同的词撞车了也没事，后面还有办法修补。

这样就能在有限的空间里塞进海量的词组模式，而且查找速度特别快，哪怕你有一万个词要查，它也能在一瞬间找到。

光找到还不行，因为这毕竟是死记硬背的东西，万一跟上下文冲突了怎么办。比如我刚才说Java，你不知道我说的是咖啡还是编程语言。

Engram这里设计了个特别灵巧的门控机制，它就像个特别懂眼的管家，先看看现在的语境，如果发现从记忆里拿出来的东西跟现在聊的天不搭界，它就自动把音量关小，甚至直接忽略。

如果发现特别对口，它就把这个记忆大声告诉模型。这种动静自如的感觉，真的是把大模型调教得像个活人一样。

而且为了不让这个外挂记忆显得太呆板，他们还加了一点深度卷积在里面。这就好比给那些死板的记忆加了一层滤镜，让它们能更好地融入到当前的句子里去，不至于显得格格不入。通过这一套组合拳下来，Engram不仅记得多，还记得灵活。

为了评估Engram的性能，研究团队训练了四个模型对比，41亿参数的稠密模型、267亿参数的MoE模型、267亿参数的Engram模型，还有395亿参数的超大Engram模型。

测试结果显示，Engram架构模型直接断层领先。

知识类任务不用多说，MMLU准确率比MoE高3%，中文的CMMLU高4%，零样本的AGIEval更是领先3.2%，相当于知识点记得更牢更准。

让人意外的是推理类任务，提升更明显。BBH逻辑推理高5%，ARC-Challenge高3.7%，阅读理解DROP高3.3%。原来把“查字典”的时间省下来，模型真的能更专注于推理，就像学生不用死记硬背公式，能把更多精力放在解题思路上。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。