当前位置:首页 > 元宇宙 > AI

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

来源: 责编: 时间:2025-05-29 09:06:16 208观看
导读 5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等

5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。TPb28资讯网——每日最新资讯28at.com

在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与 Claude-3.7-Sonnet-Thinking 相当。TPb28资讯网——每日最新资讯28at.com

TPb28资讯网——每日最新资讯28at.com

QwenLong-L1-32B 模型最大的亮点,在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发,采用了先进的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在长上下文推理中的准确性和效率。TPb28资讯网——每日最新资讯28at.com

TPb28资讯网——每日最新资讯28at.com

具体而言,团队在监督微调(SFT)阶段建立一个稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略演变,并结合难度感知的回顾采样策略来激励策略探索。TPb28资讯网——每日最新资讯28at.com

TPb28资讯网——每日最新资讯28at.com

除了模型本身,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法,以及全面的性能评估体系。TPb28资讯网——每日最新资讯28at.com

附上参考地址TPb28资讯网——每日最新资讯28at.com

GitHubTPb28资讯网——每日最新资讯28at.com

HuggingfaceTPb28资讯网——每日最新资讯28at.com

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement LearningTPb28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13259-0.htmlQwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 更新:OpenAI 宣布阿联酋全境接入 ChatGPT AI

下一篇: 微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源

标签:
  • 热门焦点
  • AI网红能年赚百万,普通人的新机会来了?

    来源|运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁2023 年 ,数字人成为了当红的“流量话题”和“商业机会"。不管是 AI 孙燕姿走红网络,还是 AI 数字
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 8个最适合艺术家发行NFT的交易市场

    近年来,加密风靡全球。加密圈最令人兴奋的方面之一是它能够用于创建称为NFT 的数字资产。从 CyberKitties 到 Cyber Galleries,NFT 已成为艺术家和艺术鉴赏家的
  • Meta、谷歌、微软竞相涌入元宇宙,小型企业该如何伺机而动?

    目前来看元宇宙不会影响到小型企业的发展,但在接下来的十年内可能会发生很多变化。很多有商业头脑的企业家都在密切关注着元宇宙的发展。元宇宙这个词,你一定或
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • NFT Insider #47:YGG发布2021Q4社区报告,GameFi领域1月份获超10亿美元融资

    引言:NFT Insider由WHALE社区、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏
  • a16z:元宇宙办公会取代实体办公室吗?

    6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界,大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
Top