当前位置:首页 > 元宇宙 > AI

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

来源: 责编: 时间:2025-04-15 07:13:26 132观看
导读 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Val

4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。4ye28资讯网——每日最新资讯28at.com

现有挑战4ye28资讯网——每日最新资讯28at.com

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。4ye28资讯网——每日最新资讯28at.com

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。4ye28资讯网——每日最新资讯28at.com

VAPO简介4ye28资讯网——每日最新资讯28at.com

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。4ye28资讯网——每日最新资讯28at.com

4ye28资讯网——每日最新资讯28at.com

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。4ye28资讯网——每日最新资讯28at.com

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。4ye28资讯网——每日最新资讯28at.com

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。4ye28资讯网——每日最新资讯28at.com

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。4ye28资讯网——每日最新资讯28at.com

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。4ye28资讯网——每日最新资讯28at.com

4ye28资讯网——每日最新资讯28at.com

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。4ye28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12244-0.html字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 因用欧洲用户数据训练 Grok,马斯克的 X 公司遭爱尔兰调查

下一篇: 数月 → 几天:OpenAI 被曝缩水模型安全测试,AI 竞赛埋下隐患

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 米哈游推出元宇宙品牌;VR/AR老牌企业当红齐天完成B轮+融资

    今日热点:苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成;VR/AR老牌企业当红齐天完成B轮+融资;米哈游推出元宇宙品牌HoYoverse;国产VR射击游戏《Contra
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 韩国建立元宇宙生态系统,智度股份发布元宇宙社区Meta彼岸

    财联社|区块链日报28日讯 今日《元宇宙新鲜事》有:杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业;韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
  • 韩国国民银行将推出韩国首个加密货币 ETF

    韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告,该银行正在等待政府批准,并已建立一个准备就绪的数字资产
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
Top