当前位置:首页 > 元宇宙 > AI

英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

来源: 责编: 时间:2025-05-16 09:03:09 144观看
导读 5 月 14 日消息,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。大型语言模型(LLMs)通过

5 月 14 日消息,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。iP028资讯网——每日最新资讯28at.com

大型语言模型(LLMs)通过外部工具提升性能已成为热门趋势,这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集,无法捕捉明确的推理步骤,导致模型仅模仿表面模式,而非真正理解决策过程。iP028资讯网——每日最新资讯28at.com

为了提升 LLMs 的工具使用能力,现有方法探索了多种策略。主要包括两方面:第一,数据集整理和模型优化。研究者创建大规模监督数据集,并应用监督微调(SFT)和直接偏好优化(DPO)强化学习等技术,将 LLMs 与外部工具整合,扩展其功能。iP028资讯网——每日最新资讯28at.com

第二,改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型,指导推理轨迹。iP028资讯网——每日最新资讯28at.com

这些方法虽有效,却仍受限于合成数据的不足。研究者指出,通过这些策略,LLMs 能处理单轮或多轮工具调用,但缺乏自主推理的深度。iP028资讯网——每日最新资讯28at.com

英伟达联合宾夕法尼亚州立大学、华盛顿大学,组建专业团队,合作开发 Nemotron-Research-Tool-N1 系列,针对现有方法的局限性,借鉴 DeepSeek-R1 的成功,开发轻量级监督机制,专注于工具调用的结构有效性和功能正确性。iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1 系列并非依赖显式标注的推理轨迹,而是采用二元奖励机制,让模型自主发展推理策略。iP028资讯网——每日最新资讯28at.com

研究者统一处理了 xLAM 和 ToolACE 等数据集(提供单轮和多轮工具调用轨迹)的子集,并设计了轻量级提示模板,指导工具生成过程。iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

该模板使用 <think>...</think > 标签明确指示中间推理,并用 < tool_call>...</tool_call > 标签封装工具调用,这样避免了过度拟合特定提示模式。iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

主干模型为 Qwen2.5-7B / 14B,并测试了 LLaMA 系列变体,以评估泛化能力。在 BFCL 基准测试中,Nemotron-Research-Tool-N1-7B / 14B 模型表现出色,超越了 GPT-4o 等封闭源模型,以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

与相同数据源的 SFT 基准相比,该模型优势明显,证明了 RL 方法的有效性。在 API-Bank 基准上,Tool-N1-7B / 14B 的准确率分别比 GPT-4o 高出 4.12% 和 5.03%。这些结果验证了新方法的潜力,帮助 LLMs 更自主地生成推理策略。研究者总结认为,这标志着从传统 SFT 向 RL 范式的转变。iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

iP028资讯网——每日最新资讯28at.com

附上参考地址iP028资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced ReasoningiP028资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced ReasoningiP028资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12878-0.html英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI手机竞赛白热化,品牌如何跨越成本与功能挑战?

下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全测试收官在即,对战 GPT-5 和 Gemini Ultra

标签:
  • 热门焦点
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫&ldquo;29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 元宇宙是数字共识生态的集成逻辑表达

    作者: 李鸣元宇宙是数字共识生态的集成逻辑表达,是以区块链技术为核心的可信数字化价值交互网络,是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 爆发在即的Layer2赛道百花齐放,谁将是领跑者?

    还记得几年前最早我们提起ETH扩容,首先想到就是Layer2,而Layer2里,首先想到的是闪电网络,状态通道,Plasma…然后折腾了几年,发现并没有什么用,许多项目方和资本也等不
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top