当前位置:首页 > 元宇宙 > AI

英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

来源: 责编: 时间:2025-05-16 09:03:09 190观看
导读 5 月 14 日消息,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。大型语言模型(LLMs)通过

5 月 14 日消息,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。Mw628资讯网——每日最新资讯28at.com

大型语言模型(LLMs)通过外部工具提升性能已成为热门趋势,这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集,无法捕捉明确的推理步骤,导致模型仅模仿表面模式,而非真正理解决策过程。Mw628资讯网——每日最新资讯28at.com

为了提升 LLMs 的工具使用能力,现有方法探索了多种策略。主要包括两方面:第一,数据集整理和模型优化。研究者创建大规模监督数据集,并应用监督微调(SFT)和直接偏好优化(DPO)强化学习等技术,将 LLMs 与外部工具整合,扩展其功能。Mw628资讯网——每日最新资讯28at.com

第二,改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型,指导推理轨迹。Mw628资讯网——每日最新资讯28at.com

这些方法虽有效,却仍受限于合成数据的不足。研究者指出,通过这些策略,LLMs 能处理单轮或多轮工具调用,但缺乏自主推理的深度。Mw628资讯网——每日最新资讯28at.com

英伟达联合宾夕法尼亚州立大学、华盛顿大学,组建专业团队,合作开发 Nemotron-Research-Tool-N1 系列,针对现有方法的局限性,借鉴 DeepSeek-R1 的成功,开发轻量级监督机制,专注于工具调用的结构有效性和功能正确性。Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1 系列并非依赖显式标注的推理轨迹,而是采用二元奖励机制,让模型自主发展推理策略。Mw628资讯网——每日最新资讯28at.com

研究者统一处理了 xLAM 和 ToolACE 等数据集(提供单轮和多轮工具调用轨迹)的子集,并设计了轻量级提示模板,指导工具生成过程。Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

该模板使用 <think>...</think > 标签明确指示中间推理,并用 < tool_call>...</tool_call > 标签封装工具调用,这样避免了过度拟合特定提示模式。Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

主干模型为 Qwen2.5-7B / 14B,并测试了 LLaMA 系列变体,以评估泛化能力。在 BFCL 基准测试中,Nemotron-Research-Tool-N1-7B / 14B 模型表现出色,超越了 GPT-4o 等封闭源模型,以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

与相同数据源的 SFT 基准相比,该模型优势明显,证明了 RL 方法的有效性。在 API-Bank 基准上,Tool-N1-7B / 14B 的准确率分别比 GPT-4o 高出 4.12% 和 5.03%。这些结果验证了新方法的潜力,帮助 LLMs 更自主地生成推理策略。研究者总结认为,这标志着从传统 SFT 向 RL 范式的转变。Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

Mw628资讯网——每日最新资讯28at.com

附上参考地址Mw628资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced ReasoningMw628资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced ReasoningMw628资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12878-0.html英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI手机竞赛白热化,品牌如何跨越成本与功能挑战?

下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全测试收官在即,对战 GPT-5 和 Gemini Ultra

标签:
  • 热门焦点
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 传腾讯已推出全新XR业务;摩托罗拉正打造5GXR颈戴式计算组件

    今日热点:传腾讯已推出全新XR业务;摩托罗拉与Verizon合作打造5G XR颈戴式计算组件;小米AR购物导航专利获授权;VR一体机Simula One放弃众筹并开放直接预订;VR游戏《
  • 新款英特尔芯片将使NFT铸造变得更加方便

    科技巨头和微处理器制造商英特尔(Intel)正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性,该公司的战略是从加密兴起与 NFT爆
  • 多地释放积极信号,元宇宙正成为地方争先竞逐的主战场?

    2月21日,2022中国·金鱼嘴元宇宙生态赋能大会在南京建邺区金鱼嘴基金街区举办,南京建邺区金鱼嘴基金街区宣布计划出资1亿元,支持元宇宙行业发展。同时,会上发布了
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
Top