当前位置:首页 > 元宇宙 > AI

上海交大研究LLM强化学习:Llama与Qwen差异及OctoThinker新突破

来源: 责编: 时间:2025-07-04 12:16:41 217观看
导读在人工智能领域,大型语言模型(LLM)正通过结合任务提示与强化学习(RL)技术,在复杂推理任务上取得显著进展。Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出卓越的推理能力。然而,这一成功并未能在所有基础模型系

在人工智能领域,大型语言模型(LLM)正通过结合任务提示与强化学习(RL)技术,在复杂推理任务上取得显著进展。Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出卓越的推理能力。然而,这一成功并未能在所有基础模型系列中轻松复制,尤其是在Llama系列模型上。iUf28资讯网——每日最新资讯28at.com

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在竞赛级数学问题上通过大规模强化学习取得了重大突破,推动了对于小型模型(参数少于千亿)强化学习能力的探索。但这些进展大多局限于Qwen模型系列,难以在Llama等模型上重现。预训练流程的缺乏透明度,使得理解预训练如何影响强化学习的扩展变得颇具挑战性。一些非传统研究发现,一次性提示可以增强Qwen的推理能力,但对Llama模型效果有限。尽管OpenWebMath、MathPile等项目致力于构建高质量的数学预训练语料库,但其规模依然有限。iUf28资讯网——每日最新资讯28at.com

上海交通大学的研究人员针对Qwen和Llama模型,深入探究了中期训练策略对强化学习动态的影响。他们发现,高质量的数学语料库,如MegaMath-Web-Pro,能够同时提升基础模型和强化学习的效果。使用问答式数据,特别是包含长链式推理(Chain-of-Thought, CoT)的数据,可以进一步增强强化学习的效果。然而,长CoT也会在强化学习训练中引入冗长性和不稳定性。研究还发现,在中期训练中应用扩展可以提升下游强化学习的性能。iUf28资讯网——每日最新资讯28at.com

基于这些发现,研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略。他们首先使用2000亿个token训练基础模型,然后在三个以CoT为中心的分支上使用200亿个token进行训练。这一策略成功生成了具有强大强化学习兼容性的OctoThinker模型。iUf28资讯网——每日最新资讯28at.com

在强化学习配置和基准评估方面,研究人员使用MATH8K数据集进行训练提示,配置包括全局训练批次大小128、每个查询16个rollout响应以及PPO最小批次大小64。实验在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上进行。在评估中,基础语言模型采用少样本提示,而强化学习调优模型则在GSM8K、MATH500、OlympiadBench和AMC23等指标任务上采用零样本提示。iUf28资讯网——每日最新资讯28at.com

在强化学习训练期间,Qwen模型的响应长度持续增加并保持在合理范围内,而Llama模型则表现出异常行为,平均响应长度飙升至4096个token。评估结果显示,强化学习调优后的Qwen2.5-3B在各个基准测试中均有所提升,而Llama-3.2-3B的提升则微乎其微。iUf28资讯网——每日最新资讯28at.com

OctoThinker模型在强化学习兼容性方面表现优异。在13个数学基准测试中,每个OctoThinker分支都比原始Llama基础模型提升了10%-20%,并且在所有规模的稳定阶段模型上都取得了持续提升。OctoThinker-Zero系列在强化学习扩展过程中展现出多样化的思维行为,其中OctoThinker-Long变体表现尤为出色。在比较三个3B规模基础模型时,OctoThinker-Long-3B的表现优于原始Llama-3.2-3B模型,并与以强大推理能力和广泛预训练而闻名的Qwen2.5-3B模型达到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑战性的基准测试中。iUf28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯MIT新研究:AI写作工具使用或致大脑活跃度下滑07-03SciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼07-03谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平07-03荣耀总裁方飞:苹果入局折叠屏,是激励也是新起点07-03OpenAI坚持英伟达与AMD,暂不全面采用谷歌TPU芯片07-03Crunchyroll新动画字幕出错,疑似AI生成引热议,观众呼吁保证创作质量07-03三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭现在的手游和应用不断升级,对配置的要求越来越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,进一步优化性能,提升新机体验。新机也被官方称为三星超轻薄折叠旗舰,看来今年的新折叠屏不断追求轻薄,甚至是与直板机…07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5采用全新AI交互方式,以更轻薄的折叠旗舰形态与行业领先的AI智能体实力,释放PC级生产力,开启智能交互体验的全新想象,用科技拓宽一小时的生命宽度,带来一辈子的温暖陪伴。荣耀正式宣布支持MC…07-03中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版07-03荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5评测:轻薄新巅峰,全能AI折叠屏旗舰重塑标准在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼登场:纤薄新纪录,满血配置,售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5深度评测:轻薄新标杆,AI折叠屏的全面进化07-02点击查看更多 +全站最新2025云手机市场风向:蜂窝云手机以高性价比全场景方案领跑2025云手机市场风向:蜂窝云手机以高性价比全场景方案领跑2025年云手机推荐:五大品牌性能比拼,性价比之选揭晓2025年云手机推荐:五大品牌性能比拼,性价比之选揭晓宇宙信使:揭秘玻璃陨石的奥秘与魅力宇宙信使:揭秘玻璃陨石的奥秘与魅力2025上半年机票均价740元,暑运旺季来临价格上扬至839元2025上半年机票均价740元,暑运旺季来临价格上扬至839元美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道热门内容
  • 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
  • 马斯克宣布Grok 4大模型即将面世,或专为编程打造
  • 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
  • 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
  • 苹果AI「Apple Intelligence」国行版,终于要来了吗?
  • QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
  • 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
  • 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
  • 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
  • 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
  • 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
  • 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
  • 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
  • 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
  • 《Artificial》今夏开机,揭秘OpenAI 2023年CEO罢免又复职风波
本栏最新三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起

本文链接:http://www.28at.com/showinfo-45-14352-0.html上海交大研究LLM强化学习:Llama与Qwen差异及OctoThinker新突破

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀Magic V5震撼发布:续航与轻薄双赢,友商折叠屏面临新挑战

下一篇: MIT新研究:AI写作工具使用或致大脑活跃度下滑

标签:
  • 热门焦点
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 搭上“谷爱凌”,“柳夜熙们”站上风口?

    作者:张琳 曹杨从“永不塌房”的艺人到频频亮相北京冬奥会,作为元宇宙细分赛道之一的虚拟数字人又火了一把。2月7日,即谷爱凌摘得冬奥会自由式滑雪大跳台金牌的
  • 8个最适合艺术家发行NFT的交易市场

    近年来,加密风靡全球。加密圈最令人兴奋的方面之一是它能够用于创建称为NFT 的数字资产。从 CyberKitties 到 Cyber Galleries,NFT 已成为艺术家和艺术鉴赏家的
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • NFT领域,我们是否应该遵守版权法

    NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外,围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要,因为人们很容易误解这些事情
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
Top