当前位置:首页 > 元宇宙 > AI

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

来源: 责编: 时间:2025-06-09 09:36:50 143观看
导读 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景简介推理模型是一种专

6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。oTl28资讯网——每日最新资讯28at.com

背景简介oTl28资讯网——每日最新资讯28at.com

推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。oTl28资讯网——每日最新资讯28at.com

强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。oTl28资讯网——每日最新资讯28at.com

然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。oTl28资讯网——每日最新资讯28at.com

此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。oTl28资讯网——每日最新资讯28at.com

ProRL 方法的突破与应用oTl28资讯网——每日最新资讯28at.com

英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。oTl28资讯网——每日最新资讯28at.com

oTl28资讯网——每日最新资讯28at.com

他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。oTl28资讯网——每日最新资讯28at.com

这是全球最佳的 1.5B 参数推理模型,在多项基准测试中超越基础模型 DeepSeek-R1-1.5B,甚至优于更大的 DeepSeek-R1-7B。oTl28资讯网——每日最新资讯28at.com

oTl28资讯网——每日最新资讯28at.com

测试结果显示,该模型在数学领域平均提升 15.7%,编程任务 pass@1 准确率提升 14.4%,STEM 推理和指令遵循分别提升 25.9% 和 22.0%,逻辑谜题奖励值提升 54.8%,展现出强大的泛化能力。oTl28资讯网——每日最新资讯28at.com

附上参考地址oTl28资讯网——每日最新资讯28at.com

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language ModelsoTl28资讯网——每日最新资讯28at.com

huggingfaceoTl28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13540-0.html英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 亚马逊的神秘 Lab126 部门组建新机器人团队,进军“物理 AI”

下一篇: 6月8日短剧付费热度揭秘:大盘破5430万,《十八岁太奶奶》蝉联冠军

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • 美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

    No.1 俄罗斯财政部长: 在俄罗斯禁止比特币就如禁止互联网一样2月16日消息,俄罗斯财政部长安东·西卢安诺夫(Anton Siluanov)表示,在俄罗斯禁止加密货币就跟禁止互
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

    韩国流行音乐巨头 SM Entertainment 与加密货币交易所 Binance(币安)达成“Play2Create”NFT 合作伙伴关系。SM 娱乐一直在投资打造元宇宙该公司于 2020 年 10
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
Top