当前位置：首页 > 元宇宙 > AI

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

来源：责编：时间：2025-05-16 09:03:09 183观看

导读 5 月 14 日消息，科技媒体 marktechpost 昨日（5 月 13 日）发布博文，报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 启发，采用新型强化学习（RL）范式，强化模型推理能力。大型语言模型（LLMs）通过

5 月 14 日消息，科技媒体 marktechpost 昨日（5 月 13 日）发布博文，报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 启发，采用新型强化学习（RL）范式，强化模型推理能力。

大型语言模型（LLMs）通过外部工具提升性能已成为热门趋势，这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集，无法捕捉明确的推理步骤，导致模型仅模仿表面模式，而非真正理解决策过程。

为了提升 LLMs 的工具使用能力，现有方法探索了多种策略。主要包括两方面：第一，数据集整理和模型优化。研究者创建大规模监督数据集，并应用监督微调（SFT）和直接偏好优化（DPO）强化学习等技术，将 LLMs 与外部工具整合，扩展其功能。

第二，改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型，指导推理轨迹。

这些方法虽有效，却仍受限于合成数据的不足。研究者指出，通过这些策略，LLMs 能处理单轮或多轮工具调用，但缺乏自主推理的深度。

英伟达联合宾夕法尼亚州立大学、华盛顿大学，组建专业团队，合作开发 Nemotron-Research-Tool-N1 系列，针对现有方法的局限性，借鉴 DeepSeek-R1 的成功，开发轻量级监督机制，专注于工具调用的结构有效性和功能正确性。

Nemotron-Research-Tool-N1 系列并非依赖显式标注的推理轨迹，而是采用二元奖励机制，让模型自主发展推理策略。

研究者统一处理了 xLAM 和 ToolACE 等数据集（提供单轮和多轮工具调用轨迹）的子集，并设计了轻量级提示模板，指导工具生成过程。

该模板使用 <think>...</think > 标签明确指示中间推理，并用 < tool_call>...</tool_call > 标签封装工具调用，这样避免了过度拟合特定提示模式。

主干模型为 Qwen2.5-7B / 14B，并测试了 LLaMA 系列变体，以评估泛化能力。在 BFCL 基准测试中，Nemotron-Research-Tool-N1-7B / 14B 模型表现出色，超越了 GPT-4o 等封闭源模型，以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。

与相同数据源的 SFT 基准相比，该模型优势明显，证明了 RL 方法的有效性。在 API-Bank 基准上，Tool-N1-7B / 14B 的准确率分别比 GPT-4o 高出 4.12% 和 5.03%。这些结果验证了新方法的潜力，帮助 LLMs 更自主地生成推理策略。研究者总结认为，这标志着从传统 SFT 向 RL 范式的转变。

附上参考地址

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

本文链接：http://www.28at.com/showinfo-45-12878-0.html英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： AI手机竞赛白热化，品牌如何跨越成本与功能挑战？

下一篇： Anthropic 即推 AI 新星：Claude Neptune 安全测试收官在即，对战 GPT-5 和 Gemini Ultra

标签：

热门焦点

亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

此前，亚马逊云科技发布多款AIGC产品，其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、软件
元宇宙风口下，视觉中国如何重估？

要说横跨2021年和2022年，到目前仍然很火的概念，元宇宙肯定要算一个。不仅互联网巨头们纷纷布局，上市公司们趋之若鹜，还被不少地方政府写入了产业规划，大有在2022年
韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

韩国投资公司(KIC)CEO Seoungho Jin预计，该公司在旧金山的办事处今年将扩招人手，探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
中国银保监管委提示：谨慎投资，勿做接盘侠

中国银保监管委，发布一则风险提示，内容围绕防范以“元宇宙”名义进行的非法集资风险。原文如下：近期，一些不法分子蹭热点，以“元宇宙投资项目”“元宇宙链游”等名
韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

财联社|区块链日报28日讯今日《元宇宙新鲜事》有：杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业；韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
重温 1602 年：DAO 是新的企业范式吗？

作者：Andrew Singer“ 将你的选票委托给行业有能力的专家，将使所有者在这些公司的管理中拥有更强大、更清晰的话语权。”1602 年，荷兰东印度公司成立，许多人认为
知识产权可能在元宇宙中“消失”？

开篇老雅痞先来划重点：一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼，声称NFT侵犯了他们的知识产权。Inside
从4个方面解析2022年加密行业趋势

作者：去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温，但关键瓶颈仍需解决。例如，以太坊作为DApp开发的顶级公链，仍然遭受网络拥塞和高额交
韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

韩国流行音乐巨头 SM Entertainment 与加密货币交易所 Binance（币安）达成“Play2Create”NFT 合作伙伴关系。SM 娱乐一直在投资打造元宇宙该公司于 2020 年 10

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

元宇宙风口下，视觉中国如何重估？

韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

中国银保监管委提示：谨慎投资，勿做接盘侠

韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

重温 1602 年：DAO 是新的企业范式吗？

知识产权可能在元宇宙中“消失”？

从4个方面解析2022年加密行业趋势

韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

最新推荐

《蜘蛛侠》火了，超级英雄就该这么演

数字人的新革命，BAT的“冲高”战场

字节、腾讯、网易鏖战元宇宙背后，大厂究竟在争夺什么？

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

元宇宙“概念股”集体崩塌，背后究竟发生了什么？

猜你喜欢

热门推荐

相关资讯