当前位置:首页 > 科技  > 软件

英伟达新突破:ProRL方法助力打造顶级1.5B参数推理AI模型

来源: 责编: 时间:2025-06-05 19:06:00 133观看
导读近期,科技界传来一则引人注目的消息,英伟达研究团队在人工智能领域取得了重要突破。据科技媒体marktechpost报道,英伟达不仅推出了一种名为ProRL的强化学习方法,还成功开发出了目前全球顶尖的1.5B参数推理模型——Nemotro

近期,科技界传来一则引人注目的消息,英伟达研究团队在人工智能领域取得了重要突破。据科技媒体marktechpost报道,英伟达不仅推出了一种名为ProRL的强化学习方法,还成功开发出了目前全球顶尖的1.5B参数推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。E5U28资讯网——每日最新资讯28at.com

推理模型,作为专门设计的人工智能系统,其核心在于通过复杂的长链推理过程,得出最终的答案。这一技术在近年来备受关注,而强化学习在这一过程中的作用更是不可忽视。此前,DeepSeek和Kimi等团队已采用可验证奖励的强化学习方法(RLVR),推动了GRPO、Mirror Descent和RLOO等算法的发展。E5U28资讯网——每日最新资讯28at.com

然而,尽管强化学习在理论上被认为能够提升大型语言模型(LLM)的推理能力,但实际应用中却面临诸多挑战。现有研究表明,RLVR在pass@k指标上并未显著优于基础模型,这显示出推理能力的扩展存在局限性。当前的研究大多聚焦于数学等特定领域,导致模型过度训练,限制了其探索新领域的潜力。同时,强化学习的训练步数通常较短,往往仅数百步,这使得模型难以充分发展新的能力。E5U28资讯网——每日最新资讯28at.com

为了克服这些难题,英伟达研究团队推出了ProRL方法。他们不仅将强化学习的训练时间延长至超过2000步,还大大扩展了训练数据的范围,涵盖了数学、编程、STEM、逻辑谜题和指令遵循等多个领域,共计13.6万个样本。这一举措旨在提升模型的泛化能力,使其能够在不同领域都表现出色。E5U28资讯网——每日最新资讯28at.com

在ProRL方法的基础上,英伟达团队采用了verl框架和改进的GRPO方法,成功开发出了Nemotron-Research-Reasoning-Qwen-1.5B模型。这一模型在多项基准测试中均表现出色,超越了基础模型DeepSeek-R1-1.5B,甚至在某些方面优于更大的DeepSeek-R1-7B模型。E5U28资讯网——每日最新资讯28at.com

E5U28资讯网——每日最新资讯28at.com

测试结果显示,Nemotron-Research-Reasoning-Qwen-1.5B模型在数学领域实现了平均15.7%的提升,编程任务的pass@1准确率提高了14.4%,在STEM推理和指令遵循方面分别提升了25.9%和22.0%,逻辑谜题的奖励值更是提升了惊人的54.8%。这一系列数据充分展示了该模型在不同领域中的强大推理能力和泛化性能。E5U28资讯网——每日最新资讯28at.com

英伟达的这一突破无疑为人工智能领域带来了新的希望和可能。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来将有更多像Nemotron-Research-Reasoning-Qwen-1.5B这样的优秀模型涌现出来,为人类社会带来更多的便利和价值。E5U28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-156847-0.html英伟达新突破:ProRL方法助力打造顶级1.5B参数推理AI模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 滨特尔国际水展大放异彩,全场景净水方案引领好水生活新风尚

下一篇: 华为Pura 80系列新颜抢先看:釉感工艺与光影纹理演绎美学新高度

标签:
  • 热门焦点
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 19个 JavaScript 单行代码技巧,让你看起来像个专业人士

    今天这篇文章跟大家分享18个JS单行代码,你只需花几分钟时间,即可帮助您了解一些您可能不知道的 JS 知识,如果您已经知道了,就当作复习一下,古人云,温故而知新嘛。现在,我们就开始今
  • 微软邀请 Microsoft 365 商业用户,测试视频编辑器 Clipchamp

    8 月 1 日消息,微软近日宣布即将面向 Microsoft 365 商业用户,开放 Clipchamp 应用,邀请用户通过该应用来编辑视频。微软于 2021 年收购 Clipchamp,随后开始逐步整合到 Microsof
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 疑似小米14外观设计图曝光:后置相机模组变化不大

    下半年的大幕已经开启,而谁将成为下半年手机圈的主角就成为了大家关注的焦点,其中被传有望拿下新一代骁龙8 Gen3旗舰芯片的小米14系列更是备受大家瞩
  • 消息称小米汽车开始筛选交付中心:需至少120个车位

    IT之家 7 月 7 日消息,日前,有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者 发文表示,据经销商集团反馈,小米汽车目前
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • iQOO Neo8系列或定档5月23日:首发天玑9200+ 安卓跑分王者

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
Top