当前位置：首页 > 元宇宙 > AI

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

来源：责编：时间：2025-04-15 07:13:26 173观看

导读 4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Val

4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Value-based reinforcement learning methods）因能精确追溯每个动作对后续回报的影响，展现出巨大潜力。然而，应用于长链式推理（CoT）任务时，价值模型面临三大挑战。

首先，价值模型初始化会引入偏差；其次，传统方法难以适应复杂任务中的序列长度差异；最后，验证任务中奖励信号稀疏，优化过程面临探索与利用的权衡，这些问题限制了价值导向方法的实际效果。

VAPO简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd（增强价值的近端政策优化），基于 PPO 框架，通过三项创新技术应对上述挑战。

首先，VAPO 模型构建了细致的价值训练框架，增强模型对复杂任务的理解。其次，引入长度自适应广义优势估计（GAE）机制，能根据响应长度动态调整参数，优化长短序列的训练效果。最后，VAPO 整合了多项先前研究技术，形成协同增效的系统。

在不依赖特定监督微调（SFT）数据的情况下，Qwen2.5-32B 模型通过VAPO优化后，在 AIME24 基准测试中将得分从 5 分提升至 60.4 分，超越 DeepSeek R1 的 47 分，超过此前SOTA方式 DAPO（50 分）10分，仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization（PPO）算法，VAPO 改进了数学推理能力，训练曲线更为平滑，优化过程更稳定。

测试显示，归因于其价值模型提供的细粒度信号，VAPO 在长序列任务中表现出色，得分增长更快。尽管后期训练熵值降低可能限制探索，VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性：价值预训练防止崩溃，解耦 GAE 支持长回答优化，自适应 GAE 平衡短长回答，剪裁策略鼓励探索，词级损失增加长回答权重，正例语言模型损失提升 6 分，分组采样贡献 5 分。

这些改进使 VAPO 在探索与利用间找到最佳平衡，显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力，还为 LLM 在复杂推理任务中的应用提供了新方向。

本文链接：http://www.28at.com/showinfo-45-12244-0.html字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：因用欧洲用户数据训练 Grok，马斯克的 X 公司遭爱尔兰调查

下一篇：数月 → 几天：OpenAI 被曝缩水模型安全测试，AI 竞赛埋下隐患

标签：

热门焦点

抢先推出“元宇宙”饮料，可口可乐赢麻了

试图傍上元宇宙的品牌千千万，但像可口可乐玩得这么花的，属实不多。01 可口可乐盯上元宇宙1886年，可口可乐诞生于美国乔治亚州亚特兰大市，至今已拥有136年的悠久历
元宇宙带来沉浸式智能登录？你学会了吗？

备受资本市场宠爱的元宇宙概念，正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态，与沉浸式体验紧密相关。多重路径，打造无感知沉浸式智能登录《设计
“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

今日《元宇宙新鲜事》有：“元宇宙第一股”Roblox首份年报未达预期致盘后股价暴跌15.28%；YouTube宣布进军区块链和元宇宙；摩根大通成为首家进入元宇宙的银行。【中
2022年中国元宇宙系列报告：底层架构研究：虚拟引擎，擎动未来

“虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下，虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力，能够高效快速的实现大量交互场
虚拟数字人：元宇宙的主角破圈而来

虚拟数字人市场逐步进入成熟期，商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生，虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破，制
NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元，世界正在走向数字化。报告显示，NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
过去女性在互联网领域是半边天，在Web3，将会是整片天！

Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中，如果女性在创造性方面发挥更大的作用，可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
NFT世界的艺术家名单

我们汇编了以下艺术家的名单，它包括每个艺术家的简短概述。当然，这份名单肯定不全面，还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
如何在元宇宙中建立品牌忠诚度

Snoop Dogg、耐克、苏富比和普华永道都有什么共同点？他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

抢先推出“元宇宙”饮料，可口可乐赢麻了

元宇宙带来沉浸式智能登录？你学会了吗？

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

2022年中国元宇宙系列报告：底层架构研究：虚拟引擎，擎动未来

虚拟数字人：元宇宙的主角破圈而来

NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

过去女性在互联网领域是半边天，在Web3，将会是整片天！

NFT世界的艺术家名单

如何在元宇宙中建立品牌忠诚度

最新推荐

FMIFAwards奖项即将揭晓！

超级碗的加密时刻：是主流信号还是“网络超级碗2.0”？

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

银保监会：打击以“元宇宙”为名义的违法行为

DAO登上了历史舞台，但是主流准备好采用DAO了吗？

a16z：元宇宙办公会取代实体办公室吗？

猜你喜欢

热门推荐

相关资讯