当前位置：首页 > 元宇宙 > AI

英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

来源：责编：时间：2025-06-09 09:36:50 157观看

导读 6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达推出 ProRL 强化学习方法，并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景简介推理模型是一种专

6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达推出 ProRL 强化学习方法，并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景简介

推理模型是一种专门的人工智能系统，通过详细的长链推理（Chain of Thought，CoT）过程生成最终答案。

强化学习（Reinforcement Learning，RL）在训练中扮演非常重要的角色，DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习（RLVR）方法，推广了 GRPO、Mirror Descent 和 RLOO 等算法。

然而，研究者仍在争论强化学习是否真正提升大型语言模型（LLM）的推理能力。现有数据表明，RLVR 在 pass@k 指标上未能显著优于基础模型，显示推理能力扩展受限。

此外，当前研究多集中于数学等特定领域，模型常被过度训练，限制了探索潜力；同时，训练步数通常仅数百步，未能让模型充分发展新能力。

ProRL 方法的突破与应用

英伟达研究团队为解决上述问题，推出 ProRL 方法，延长强化学习训练时间至超过 2000 步，并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域，涵盖 13.6 万个样本。

他们采用 verl 框架和改进的 GRPO 方法，开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

这是全球最佳的 1.5B 参数推理模型，在多项基准测试中超越基础模型 DeepSeek-R1-1.5B，甚至优于更大的 DeepSeek-R1-7B。

测试结果显示，该模型在数学领域平均提升 15.7%，编程任务 pass@1 准确率提升 14.4%，STEM 推理和指令遵循分别提升 25.9% 和 22.0%，逻辑谜题奖励值提升 54.8%，展现出强大的泛化能力。

附上参考地址

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

huggingface

本文链接：http://www.28at.com/showinfo-45-13540-0.html英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：亚马逊的神秘 Lab126 部门组建新机器人团队，进军“物理 AI”

下一篇： 6月8日短剧付费热度揭秘：大盘破5430万，《十八岁太奶奶》蝉联冠军

标签：

热门焦点

元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
如何对一款 NFT 项目进行价值评估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家，因为我相信我们正在见证社会
中国区块链产业生态地图报告（2021）

区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新，以服务实体经济、政务民生以及公共服务等领域为落脚点，以期实现整个地区和产业的资
百度元宇宙希壤是什么？（附下载）

百度元宇宙希壤是什么，最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入？今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
从冰墩墩到无聊猿，解秘未来IP爆款的模因

打造IP，是建设元宇宙的刚需。NFT能直接让IP的价值变现；虚拟人IP是元宇宙的第一入口，而元宇宙要搭建的，就是一个个品牌IP星球，考验的是IP世界观的建设能力。如果说在
Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

今日《元宇宙新鲜事》有：扎克伯格透露正在为元宇宙研发语音助手；完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
Shiba Inu布局元宇宙走出Meme局限

以「狗狗币杀手」成名的Shiba Inu（SHIB）在人们的印象中始终有着浓厚的Meme（模因恶搞）烙印，但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后，Shiba Inu
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装
在互联网考古后，我被豆瓣上这座元宇宙古城征服了

最近一段时间，豆瓣可谓命途多舛：APP屡次下架，平台也被相关部门约谈、处罚，国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能：这个曾经小

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

元宇宙是投资中国的第五次重大机遇

如何对一款 NFT 项目进行价值评估？

中国区块链产业生态地图报告（2021）

百度元宇宙希壤是什么？（附下载）

从冰墩墩到无聊猿，解秘未来IP爆款的模因

Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

Shiba Inu布局元宇宙走出Meme局限

元宇宙收割了谁

在互联网考古后，我被豆瓣上这座元宇宙古城征服了

最新推荐

虚拟人再升级，企业可以解放双手了？

拯救XR，苹果力不从心

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

避坑指南：远离具有这些特性的NFT

艺术创作者能否永久收取版税？

猜你喜欢

热门推荐

相关资讯