当前位置:首页 > 元宇宙 > AI

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

来源: 责编: 时间:2025-06-09 09:36:50 157观看
导读 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景简介推理模型是一种专

6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。Jtd28资讯网——每日最新资讯28at.com

背景简介Jtd28资讯网——每日最新资讯28at.com

推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。Jtd28资讯网——每日最新资讯28at.com

强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。Jtd28资讯网——每日最新资讯28at.com

然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。Jtd28资讯网——每日最新资讯28at.com

此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。Jtd28资讯网——每日最新资讯28at.com

ProRL 方法的突破与应用Jtd28资讯网——每日最新资讯28at.com

英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。Jtd28资讯网——每日最新资讯28at.com

Jtd28资讯网——每日最新资讯28at.com

他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。Jtd28资讯网——每日最新资讯28at.com

这是全球最佳的 1.5B 参数推理模型,在多项基准测试中超越基础模型 DeepSeek-R1-1.5B,甚至优于更大的 DeepSeek-R1-7B。Jtd28资讯网——每日最新资讯28at.com

Jtd28资讯网——每日最新资讯28at.com

测试结果显示,该模型在数学领域平均提升 15.7%,编程任务 pass@1 准确率提升 14.4%,STEM 推理和指令遵循分别提升 25.9% 和 22.0%,逻辑谜题奖励值提升 54.8%,展现出强大的泛化能力。Jtd28资讯网——每日最新资讯28at.com

附上参考地址Jtd28资讯网——每日最新资讯28at.com

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language ModelsJtd28资讯网——每日最新资讯28at.com

huggingfaceJtd28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13540-0.html英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 亚马逊的神秘 Lab126 部门组建新机器人团队,进军“物理 AI”

下一篇: 6月8日短剧付费热度揭秘:大盘破5430万,《十八岁太奶奶》蝉联冠军

标签:
  • 热门焦点
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • 百度元宇宙希壤是什么?(附下载)

    百度元宇宙希壤是什么,最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入?今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • Meta正在研发元宇宙语音助手;广东省462家企业申请元宇宙商标

    今日《元宇宙新鲜事》有:扎克伯格透露正在为元宇宙研发语音助手;完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top