当前位置:首页 > 元宇宙 > AI

微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源

来源: 责编: 时间:2025-05-29 09:06:28 178观看
导读 5 月 27 日消息,科技媒体 marktechpost 今天(5 月 27 日)发布博文,报道称微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务

5 月 27 日消息,科技媒体 marktechpost 今天(5 月 27 日)发布博文,报道称微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。cH128资讯网——每日最新资讯28at.com

援引博文介绍,强化学习(Reinforcement Learning,RL)已成为大语言模型(LLM)后训练的核心方法,通过人类反馈(RLHF)或可验证奖励(RLVR)提供监督信号。cH128资讯网——每日最新资讯28at.com

然而,RLVR 在数学推理中虽有潜力,却因依赖可验证答案的训练查询而受限,难以应用于通用领域的大规模训练。cH128资讯网——每日最新资讯28at.com

此外,现有奖励模型分为标量型和生成型两大类,均无法有效扩展测试时的计算资源。当前方法对所有输入统一分配计算资源,缺乏针对复杂查询进行细致分析的能力,导致评估效果不佳。cH128资讯网——每日最新资讯28at.com

为解决上述问题,微软研究院、清华大学和北京大学的研究者联手推出奖励推理模型(RRMs)。RRMs 在给出最终奖励前执行显式推理过程,能够根据任务复杂性自适应分配额外计算资源。cH128资讯网——每日最新资讯28at.com

这种方法通过“思维链”(Chain-of-Thought)推理,针对奖励不明显的复杂查询投入更多测试时计算资源。cH128资讯网——每日最新资讯28at.com

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务,生成推理过程后给出最终判断。cH128资讯网——每日最新资讯28at.com

研究团队利用 RewardBench 库进行系统分析,评估指标包括指令遵循性、帮助性、准确性、无害性和细节水平。RRMs 还支持多响应评估,通过 ELO 评分系统和淘汰赛机制,结合多数投票提升计算资源利用率。cH128资讯网——每日最新资讯28at.com

测试结果显示,RRMs 在 RewardBench 和 PandaLM Test 基准测试中表现突出。其中,RRM-32B 在推理类别中达到 98.6% 的准确率,与使用相同数据训练的 DirectJudge 模型相比,RRMs 展现出显著性能差距,证明其在复杂查询中有效利用测试时计算资源。cH128资讯网——每日最新资讯28at.com

在奖励引导的最佳 N 推理(Best-of-N Inference)和后训练反馈中,RRMs 超越所有基线模型,且进一步提升多数投票机制效率。cH128资讯网——每日最新资讯28at.com

研究还表明,随着模型规模从 7B、14B 到 32B 扩展,更长的推理时间始终带来准确性提升。RRMs 通过并行和顺序扩展方法高效利用计算资源,为传统标量奖励模型提供强大替代方案。cH128资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13260-0.html微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

下一篇: 我国首个软件开发 AI 智能体标准发布,20 余家巨头联手参编

标签:
  • 热门焦点
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 2021年中国智慧城市行业概览:AI慧眼独具,赋能“双碳”目标

    中国智慧城市试点项目主要集中于东南地区以及华中地区,受制于应用场景分散以及行业地域建设差异,目前中国智慧城市存在较多弊端,未来数量有望持续突破。中国智慧
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • “我没搞懂元宇宙,但一天能赚9w块”

    作者:郑宇轩最近几个月,“元宇宙”爆火,除了 Facebook 改名为 Meta 高调进军元宇宙外, BAT 为代表的大厂纷纷着手“元宇宙”新业务。刹那之间,元宇宙成为新风口,除了
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 元宇宙的应用行业研究:娱乐可能是元宇宙落地最快的场景之一

    近日,毕马威正式发布其《初探元宇宙》报告,这也是毕马威在元宇宙领域发布的首份报告。报告指出,元宇宙在以下十个领域的应用场景尤其值得期待,包括娱乐、社交、零
Top