当前位置:首页 > 元宇宙 > AI

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

来源: 责编: 时间:2025-05-29 09:06:16 101观看
导读 5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等

5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。ALu28资讯网——每日最新资讯28at.com

在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与 Claude-3.7-Sonnet-Thinking 相当。ALu28资讯网——每日最新资讯28at.com

ALu28资讯网——每日最新资讯28at.com

QwenLong-L1-32B 模型最大的亮点,在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发,采用了先进的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在长上下文推理中的准确性和效率。ALu28资讯网——每日最新资讯28at.com

ALu28资讯网——每日最新资讯28at.com

具体而言,团队在监督微调(SFT)阶段建立一个稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略演变,并结合难度感知的回顾采样策略来激励策略探索。ALu28资讯网——每日最新资讯28at.com

ALu28资讯网——每日最新资讯28at.com

除了模型本身,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法,以及全面的性能评估体系。ALu28资讯网——每日最新资讯28at.com

附上参考地址ALu28资讯网——每日最新资讯28at.com

GitHubALu28资讯网——每日最新资讯28at.com

HuggingfaceALu28资讯网——每日最新资讯28at.com

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement LearningALu28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13259-0.htmlQwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 更新:OpenAI 宣布阿联酋全境接入 ChatGPT AI

下一篇: 微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源

标签:
  • 热门焦点
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 企业热、用户冷,元宇宙第一站将是“营销场”?

    如果说2021年底什么最火热,那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语,在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日,有消息传
  • 过去女性在互联网领域是半边天,在Web3,将会是整片天!

    Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中,如果女性在创造性方面发挥更大的作用,可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
  • 售出6930万美元的NFT已经过去一年,NFT如今是否已成为主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是,这个拍卖作品不是出自哪位艺术大
Top