DeepSeek与清华研究提升奖励模型推理时可扩展性

2025-04-07

近日,DeepSeek和清华研究者发布新论文,提出自我原则点评调优(SPCT)学习方法及引入元奖励模型(meta RM),以提升奖励模型推理时可扩展性。SPCT方法分为拒绝式微调与基于规则的在线强化学习两阶段,显著提高了GRM的质量和扩展性。实验结果显示,基于SPCT训练的DeepSeek – GRM -27B在多个基准测试中表现优异,且推理时扩展策略有效提升了其性能。

CAIE AI认证介绍:

CAIE,全称 Certified Artificial Intelligence Engineer(注册人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证,旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

CAIE 认证体系主要针对从事或希望从事人工智能技术研发、应用及项目管理等相关工作的专业人员,考核范围包括但不限于人工智能的基础理论、主流算法、开发工具、编程实践、以及在不同行业、不同领域、不同岗位场景下的应用能力,包括CAIE+营销\人力\财务\学术\医疗\视频等不同场景下的应用。

点击进入CAIE认证官网:https://www.caieglobal.com

完 谢谢观看

确定要退出登录吗?
确定 取消