当前位置:首页 > 元宇宙 > AI

英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

来源: 责编: 时间:2025-05-16 09:03:09 117观看
导读 5 月 14 日消息,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。大型语言模型(LLMs)通过

5 月 14 日消息,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。fEE28资讯网——每日最新资讯28at.com

大型语言模型(LLMs)通过外部工具提升性能已成为热门趋势,这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集,无法捕捉明确的推理步骤,导致模型仅模仿表面模式,而非真正理解决策过程。fEE28资讯网——每日最新资讯28at.com

为了提升 LLMs 的工具使用能力,现有方法探索了多种策略。主要包括两方面:第一,数据集整理和模型优化。研究者创建大规模监督数据集,并应用监督微调(SFT)和直接偏好优化(DPO)强化学习等技术,将 LLMs 与外部工具整合,扩展其功能。fEE28资讯网——每日最新资讯28at.com

第二,改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型,指导推理轨迹。fEE28资讯网——每日最新资讯28at.com

这些方法虽有效,却仍受限于合成数据的不足。研究者指出,通过这些策略,LLMs 能处理单轮或多轮工具调用,但缺乏自主推理的深度。fEE28资讯网——每日最新资讯28at.com

英伟达联合宾夕法尼亚州立大学、华盛顿大学,组建专业团队,合作开发 Nemotron-Research-Tool-N1 系列,针对现有方法的局限性,借鉴 DeepSeek-R1 的成功,开发轻量级监督机制,专注于工具调用的结构有效性和功能正确性。fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1 系列并非依赖显式标注的推理轨迹,而是采用二元奖励机制,让模型自主发展推理策略。fEE28资讯网——每日最新资讯28at.com

研究者统一处理了 xLAM 和 ToolACE 等数据集(提供单轮和多轮工具调用轨迹)的子集,并设计了轻量级提示模板,指导工具生成过程。fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

该模板使用 <think>...</think > 标签明确指示中间推理,并用 < tool_call>...</tool_call > 标签封装工具调用,这样避免了过度拟合特定提示模式。fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

主干模型为 Qwen2.5-7B / 14B,并测试了 LLaMA 系列变体,以评估泛化能力。在 BFCL 基准测试中,Nemotron-Research-Tool-N1-7B / 14B 模型表现出色,超越了 GPT-4o 等封闭源模型,以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

与相同数据源的 SFT 基准相比,该模型优势明显,证明了 RL 方法的有效性。在 API-Bank 基准上,Tool-N1-7B / 14B 的准确率分别比 GPT-4o 高出 4.12% 和 5.03%。这些结果验证了新方法的潜力,帮助 LLMs 更自主地生成推理策略。研究者总结认为,这标志着从传统 SFT 向 RL 范式的转变。fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

fEE28资讯网——每日最新资讯28at.com

附上参考地址fEE28资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced ReasoningfEE28资讯网——每日最新资讯28at.com

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced ReasoningfEE28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12878-0.html英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI手机竞赛白热化,品牌如何跨越成本与功能挑战?

下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全测试收官在即,对战 GPT-5 和 Gemini Ultra

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • Layer1的新以太坊,更好的以太坊?

    以太坊作为区块链基础设施地位看起来已不可动摇,但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
  • Meta正在研发元宇宙语音助手;广东省462家企业申请元宇宙商标

    今日《元宇宙新鲜事》有:扎克伯格透露正在为元宇宙研发语音助手;完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • NFT Insider #47:YGG发布2021Q4社区报告,GameFi领域1月份获超10亿美元融资

    引言:NFT Insider由WHALE社区、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
Top