当前位置:首页 > 元宇宙 > AI

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

来源: 责编: 时间:2025-04-15 07:13:26 152观看
导读 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Val

4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。SuN28资讯网——每日最新资讯28at.com

现有挑战SuN28资讯网——每日最新资讯28at.com

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。SuN28资讯网——每日最新资讯28at.com

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。SuN28资讯网——每日最新资讯28at.com

VAPO简介SuN28资讯网——每日最新资讯28at.com

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。SuN28资讯网——每日最新资讯28at.com

SuN28资讯网——每日最新资讯28at.com

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。SuN28资讯网——每日最新资讯28at.com

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。SuN28资讯网——每日最新资讯28at.com

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。SuN28资讯网——每日最新资讯28at.com

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。SuN28资讯网——每日最新资讯28at.com

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。SuN28资讯网——每日最新资讯28at.com

SuN28资讯网——每日最新资讯28at.com

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。SuN28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12244-0.html字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 因用欧洲用户数据训练 Grok,马斯克的 X 公司遭爱尔兰调查

下一篇: 数月 → 几天:OpenAI 被曝缩水模型安全测试,AI 竞赛埋下隐患

标签:
  • 热门焦点
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 元宇宙里掀起回忆杀?这波虚拟怀旧营销主打一个极限反差

    来源:首席品牌官从被称为“元宇宙元年”的2021年开始,几乎所有品牌都在迫不及待地“入驻”元宇宙。而一提及品牌们的元宇宙玩法,相信多数人脑海里首先浮现
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
Top