当前位置：首页 > 元宇宙 > AI

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

来源：责编：时间：2025-04-15 07:13:26 181观看

导读 4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Val

4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Value-based reinforcement learning methods）因能精确追溯每个动作对后续回报的影响，展现出巨大潜力。然而，应用于长链式推理（CoT）任务时，价值模型面临三大挑战。

首先，价值模型初始化会引入偏差；其次，传统方法难以适应复杂任务中的序列长度差异；最后，验证任务中奖励信号稀疏，优化过程面临探索与利用的权衡，这些问题限制了价值导向方法的实际效果。

VAPO简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd（增强价值的近端政策优化），基于 PPO 框架，通过三项创新技术应对上述挑战。

首先，VAPO 模型构建了细致的价值训练框架，增强模型对复杂任务的理解。其次，引入长度自适应广义优势估计（GAE）机制，能根据响应长度动态调整参数，优化长短序列的训练效果。最后，VAPO 整合了多项先前研究技术，形成协同增效的系统。

在不依赖特定监督微调（SFT）数据的情况下，Qwen2.5-32B 模型通过VAPO优化后，在 AIME24 基准测试中将得分从 5 分提升至 60.4 分，超越 DeepSeek R1 的 47 分，超过此前SOTA方式 DAPO（50 分）10分，仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization（PPO）算法，VAPO 改进了数学推理能力，训练曲线更为平滑，优化过程更稳定。

测试显示，归因于其价值模型提供的细粒度信号，VAPO 在长序列任务中表现出色，得分增长更快。尽管后期训练熵值降低可能限制探索，VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性：价值预训练防止崩溃，解耦 GAE 支持长回答优化，自适应 GAE 平衡短长回答，剪裁策略鼓励探索，词级损失增加长回答权重，正例语言模型损失提升 6 分，分组采样贡献 5 分。

这些改进使 VAPO 在探索与利用间找到最佳平衡，显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力，还为 LLM 在复杂推理任务中的应用提供了新方向。

本文链接：http://www.28at.com/showinfo-45-12244-0.html字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：因用欧洲用户数据训练 Grok，马斯克的 X 公司遭爱尔兰调查

下一篇：数月 → 几天：OpenAI 被曝缩水模型安全测试，AI 竞赛埋下隐患

标签：

热门焦点

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

来源：清元宇宙炎炎夏日努力工作的Q仔的电脑都冒烟儿啦～今天要给大家介绍两个新小伙伴——小元和小娲，他们将给大家解读元娲2.7版本重磅更新内容～大家掌声欢迎～～～本次更
元宇宙火热的当下，我们该如何“身临其境”的体验元宇宙？

元宇宙的余热依然没有过去，甚至大有星星之火开启燎原之势，元宇宙本身也从殿堂走向了民间，我们可以看到一些企业开始了元宇宙的探索，诸如中国电信全资控股子公司天
时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱（Crypto）、房屋（可能建在Minecraft上）和衣物。随着
字节跳动，刚刚投了一位虚拟女生

今年第一笔虚拟人融资出炉了。投资界获悉，杭州李未可科技有限公司显示发生股东变更，新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认，本轮
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
2022年的Web3：定义概念并开创新范式

Web3 是关于加密和区块链应该如何使用的概念，因为它是加密圈的一个离散子领域。社区机会将呈指数级增长，扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

今日《元宇宙新鲜事》有：扎克伯格透露正在为元宇宙研发语音助手；完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
NFT：新骗局的狩猎场

骗局的自动化需要更好的防御，从数字身份开始。前几天我在OpenSea上购买了一个NFT，是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画，来自她的 "原作 "收
大厂打造元宇宙平台的业务重心是什么？

知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告，其中提出互联网大厂各自独立布局元宇宙平台。事实上，在2021年的最后一个季度，包括Meta、英伟达、

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

字节跳动推出 VAPO 框架：突破 AI 推理极限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

元宇宙火热的当下，我们该如何“身临其境”的体验元宇宙？

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

字节跳动，刚刚投了一位虚拟女生

比特币的价格越高，使用价值越大

2022年的Web3：定义概念并开创新范式

Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

NFT：新骗局的狩猎场

大厂打造元宇宙平台的业务重心是什么？

最新推荐

元宇宙终究没火过两年

AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

量子计算在未来能否提高区块链技术的效率

元宇宙需要的5个重要安全功能

利用元宇宙平台10天收入160万，风口还是虎口？

初探元宇宙

猜你喜欢

热门推荐

相关资讯