当前位置:首页 > 元宇宙 > AI

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

来源: 责编: 时间:2025-05-29 09:06:16 169观看
导读 5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等

5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。2vT28资讯网——每日最新资讯28at.com

在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与 Claude-3.7-Sonnet-Thinking 相当。2vT28资讯网——每日最新资讯28at.com

2vT28资讯网——每日最新资讯28at.com

QwenLong-L1-32B 模型最大的亮点,在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发,采用了先进的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在长上下文推理中的准确性和效率。2vT28资讯网——每日最新资讯28at.com

2vT28资讯网——每日最新资讯28at.com

具体而言,团队在监督微调(SFT)阶段建立一个稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略演变,并结合难度感知的回顾采样策略来激励策略探索。2vT28资讯网——每日最新资讯28at.com

2vT28资讯网——每日最新资讯28at.com

除了模型本身,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法,以及全面的性能评估体系。2vT28资讯网——每日最新资讯28at.com

附上参考地址2vT28资讯网——每日最新资讯28at.com

GitHub2vT28资讯网——每日最新资讯28at.com

Huggingface2vT28资讯网——每日最新资讯28at.com

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning2vT28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13259-0.htmlQwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 更新:OpenAI 宣布阿联酋全境接入 ChatGPT AI

下一篇: 微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 企业热、用户冷,元宇宙第一站将是“营销场”?

    如果说2021年底什么最火热,那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语,在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日,有消息传
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 国内涌现70余家数字藏品平台:合规、流量与利润在博弈

    作者:杨郑君2月16日,迅雷链企业数字藏品服务平台正式上线,继阿里、腾讯、京东、百度、网易等之后,又一家互联网企业正式加入到火热的数字藏品平台的竞争中。除互联
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
Top