当前位置:首页 > 元宇宙 > AI

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

来源: 责编: 时间:2025-04-15 07:13:26 180观看
导读 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Val

4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。MyH28资讯网——每日最新资讯28at.com

现有挑战MyH28资讯网——每日最新资讯28at.com

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。MyH28资讯网——每日最新资讯28at.com

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。MyH28资讯网——每日最新资讯28at.com

VAPO简介MyH28资讯网——每日最新资讯28at.com

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。MyH28资讯网——每日最新资讯28at.com

MyH28资讯网——每日最新资讯28at.com

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。MyH28资讯网——每日最新资讯28at.com

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。MyH28资讯网——每日最新资讯28at.com

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。MyH28资讯网——每日最新资讯28at.com

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。MyH28资讯网——每日最新资讯28at.com

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。MyH28资讯网——每日最新资讯28at.com

MyH28资讯网——每日最新资讯28at.com

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。MyH28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12244-0.html字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 因用欧洲用户数据训练 Grok,马斯克的 X 公司遭爱尔兰调查

下一篇: 数月 → 几天:OpenAI 被曝缩水模型安全测试,AI 竞赛埋下隐患

标签:
  • 热门焦点
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top