DeepSeek与清华研究提升奖励模型推理时可扩展性

2025-04-07

近日，DeepSeek和清华研究者发布新论文，提出自我原则点评调优(SPCT)学习方法及引入元奖励模型(meta RM)，以提升奖励模型推理时可扩展性。SPCT方法分为拒绝式微调与基于规则的在线强化学习两阶段，显著提高了GRM的质量和扩展性。实验结果显示，基于SPCT训练的DeepSeek – GRM -27B在多个基准测试中表现优异，且推理时扩展策略有效提升了其性能。

CAIE AI认证介绍：

CAIE，全称 Certified Artificial Intelligence Engineer（注册人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证，旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

CAIE 认证体系主要针对从事或希望从事人工智能技术研发、应用及项目管理等相关工作的专业人员，考核范围包括但不限于人工智能的基础理论、主流算法、开发工具、编程实践、以及在不同行业、不同领域、不同岗位场景下的应用能力，包括CAIE+营销\人力\财务\学术\医疗\视频等不同场景下的应用。

CAIE联动企业、高校、渠道，以AI人才认证为核心，构建协同生态，助力智能化人才培育与产业落地。相关合作请微信联系：FYLlaoshi

如需了解考试大纲、报考条件、考试形式等详细信息，请点击进入CAIE认证指定官网：https://www.caieglobal.com

完谢谢观看

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。