当前位置:首页 > 元宇宙 > AI

英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

来源: 责编: 时间:2025-06-09 09:36:50 111观看
导读 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景简介推理模型是一种专

6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。1rM28资讯网——每日最新资讯28at.com

背景简介1rM28资讯网——每日最新资讯28at.com

推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。1rM28资讯网——每日最新资讯28at.com

强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。1rM28资讯网——每日最新资讯28at.com

然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。1rM28资讯网——每日最新资讯28at.com

此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。1rM28资讯网——每日最新资讯28at.com

ProRL 方法的突破与应用1rM28资讯网——每日最新资讯28at.com

英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。1rM28资讯网——每日最新资讯28at.com

1rM28资讯网——每日最新资讯28at.com

他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。1rM28资讯网——每日最新资讯28at.com

这是全球最佳的 1.5B 参数推理模型,在多项基准测试中超越基础模型 DeepSeek-R1-1.5B,甚至优于更大的 DeepSeek-R1-7B。1rM28资讯网——每日最新资讯28at.com

1rM28资讯网——每日最新资讯28at.com

测试结果显示,该模型在数学领域平均提升 15.7%,编程任务 pass@1 准确率提升 14.4%,STEM 推理和指令遵循分别提升 25.9% 和 22.0%,逻辑谜题奖励值提升 54.8%,展现出强大的泛化能力。1rM28资讯网——每日最新资讯28at.com

附上参考地址1rM28资讯网——每日最新资讯28at.com

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models1rM28资讯网——每日最新资讯28at.com

huggingface1rM28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13540-0.html英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 亚马逊的神秘 Lab126 部门组建新机器人团队,进军“物理 AI”

下一篇: 6月8日短剧付费热度揭秘:大盘破5430万,《十八岁太奶奶》蝉联冠军

标签:
  • 热门焦点
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

    2 月 22 日,纽约证券交易所 (NYSE) 的母公司洲际交易所 (ICE) 宣布,它将持有私人数字证券市场 tZERO 的所有权。根据公告,ICE 将成为 tZero 的“重要”少数股东,但
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

    当Stefan Prodanovic在13岁时开始尝试平面设计,与一位从事编程工作的学校朋友共同创作数字游戏时,他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 知识产权可能在元宇宙中“消失”?

    开篇老雅痞先来划重点:一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼,声称NFT侵犯了他们的知识产权。Inside
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
Top