当前位置:首页 > 元宇宙 > AI

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

来源: 责编: 时间:2025-04-15 07:13:26 113观看
导读 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Val

4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。6MI28资讯网——每日最新资讯28at.com

现有挑战6MI28资讯网——每日最新资讯28at.com

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。6MI28资讯网——每日最新资讯28at.com

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。6MI28资讯网——每日最新资讯28at.com

VAPO简介6MI28资讯网——每日最新资讯28at.com

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。6MI28资讯网——每日最新资讯28at.com

6MI28资讯网——每日最新资讯28at.com

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。6MI28资讯网——每日最新资讯28at.com

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。6MI28资讯网——每日最新资讯28at.com

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。6MI28资讯网——每日最新资讯28at.com

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。6MI28资讯网——每日最新资讯28at.com

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。6MI28资讯网——每日最新资讯28at.com

6MI28资讯网——每日最新资讯28at.com

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。6MI28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12244-0.html字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 因用欧洲用户数据训练 Grok,马斯克的 X 公司遭爱尔兰调查

下一篇: 数月 → 几天:OpenAI 被曝缩水模型安全测试,AI 竞赛埋下隐患

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • Meta正在研发元宇宙语音助手;广东省462家企业申请元宇宙商标

    今日《元宇宙新鲜事》有:扎克伯格透露正在为元宇宙研发语音助手;完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 小众有趣NFT艺术作品欣赏(1)

    随着NFT发展火热,越来越多领域与NFT融合,NFT艺术在加密领域中占据了很大一部分。NFT艺术与传统艺术有相似之处,也有完全不同的地方。NFT艺术与传统艺术一样,表现了
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
Top