当前位置:首页 > 元宇宙 > AI

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

来源: 责编: 时间:2025-06-09 09:36:50 112观看
导读 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景简介推理模型是一种专

6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。jOU28资讯网——每日最新资讯28at.com

背景简介jOU28资讯网——每日最新资讯28at.com

推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。jOU28资讯网——每日最新资讯28at.com

强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。jOU28资讯网——每日最新资讯28at.com

然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。jOU28资讯网——每日最新资讯28at.com

此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。jOU28资讯网——每日最新资讯28at.com

ProRL 方法的突破与应用jOU28资讯网——每日最新资讯28at.com

英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。jOU28资讯网——每日最新资讯28at.com

jOU28资讯网——每日最新资讯28at.com

他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。jOU28资讯网——每日最新资讯28at.com

这是全球最佳的 1.5B 参数推理模型,在多项基准测试中超越基础模型 DeepSeek-R1-1.5B,甚至优于更大的 DeepSeek-R1-7B。jOU28资讯网——每日最新资讯28at.com

jOU28资讯网——每日最新资讯28at.com

测试结果显示,该模型在数学领域平均提升 15.7%,编程任务 pass@1 准确率提升 14.4%,STEM 推理和指令遵循分别提升 25.9% 和 22.0%,逻辑谜题奖励值提升 54.8%,展现出强大的泛化能力。jOU28资讯网——每日最新资讯28at.com

附上参考地址jOU28资讯网——每日最新资讯28at.com

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language ModelsjOU28资讯网——每日最新资讯28at.com

huggingfacejOU28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13540-0.html英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 亚马逊的神秘 Lab126 部门组建新机器人团队,进军“物理 AI”

下一篇: 6月8日短剧付费热度揭秘:大盘破5430万,《十八岁太奶奶》蝉联冠军

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 元宇宙画廊体验报告:有点头疼。

    2 月 10 日,Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗?时间好像变长了” 我问身后排队的人。我
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • PayPal CEO 的加密语录:加密货币将重新定义金融世界

    PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头,已经允许美国和英国的用户交易或持有比特币(BTC)、以太坊(ETH)、比特现金(BCH
  • 电影工业巨头好莱坞计划进军元宇宙,将会对行业带来什么影响?

    元宇宙听起来像不像是科幻小说中出现的术语?事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙,它能够模
Top