当前位置：首页 > 元宇宙 > AI

克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈

来源：责编：时间：2024-11-05 08:18:01 175观看

导读 CGPO 框架通过混合评审机制和约束优化器，有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO 的设计为未来多任务学习提供了新的优化路径，有望进一步提升

CGPO 框架通过混合评审机制和约束优化器，有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO 的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。

近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF 逐渐成为调整和优化语言模型输出的主流方法。

尽管 RLHF 在处理复杂任务时表现出色，但其在多任务学习（MTL）中的表现却受限于「奖励欺骗」以及多目标优化中的矛盾问题。

传统的 RLHF 方法依赖于线性组合的奖励模型，不仅需要人工调参，且容易导致模型被某一任务的奖励优化「误导」。

最近 Meta GenAI 和 FAIR 团队提出了一个全新的后训练范式 ——Constrained Generative Policy Optimization （CGPO），通过引入「混合评审机制」（Mixture of Judges, MoJ）与高效的约束优化器，全面提升了 RLHF 在多任务环境中的表现。

论文链接：https://arxiv.org/ pdf/2409.20370

实验结果表明，CGPO 能够根据任务的不同需求灵活调整优化策略，并通过多任务梯度累积来实现模型的更新，使其在处理不同任务时均能达到最佳表现。

CGPO 框架：打破 RLHF 瓶颈的全新设计

CGPO 的核心在于它突破了传统 RLHF 对多任务学习的局限性，尤其是在奖励优化与任务目标冲突之间找到了新的平衡。通过混合评审机制，CGPO 能够有效识别并消除「奖励欺骗」行为，即模型在某些任务中过度优化特定的奖励指标，进而导致其他任务的表现下降。

此外，CGPO 的约束优化器具备自动化调节能力，使其可以在不依赖人工经验的情况下，找到不同任务间的最优平衡点。

CGPO 采用了基于规则和 LLM 的双重评审机制。在规则评审中，预先定义的规则能够有效检测出模型生成结果是否符合任务需求，如解决数学问题的正确性、代码生成的准确性等；而 LLM 评审则利用语言模型的内在判断能力，检测生成内容的事实性、响应的安全性等，这对于处理复杂对话和开放性问题尤为重要。

CGPO 的核心贡献

CGPO 的设计从根本上解决了 RLHF 在多任务优化中的两大难题：

1. 奖励欺骗的防范

CGPO 通过混合评审机制，在模型生成的过程中持续监控奖励欺骗行为，保证模型不会过度优化某一任务的奖励，而牺牲其他任务的表现。不同于传统 RLHF 方法，CGPO 能够智能检测出不合规的生成内容，并通过约束策略进行调整。

2. 极端多目标优化问题的解决

多任务学习通常涉及多个甚至冲突的目标，传统的 RLHF 框架难以处理这些目标之间的平衡。而 CGPO 通过为每个任务单独设定评审和优化器，确保各任务能够独立优化其目标，避免了不同任务目标之间的相互妥协。最终，CGPO 为多任务学习提供了更优的帕累托前沿解。

技术亮点：三大优化器与多评审机制

CGPO 引入了三种主要的 RLHF 约束优化器 ——Calibrated Regularized Policy Gradient（CRPG）、Constrained Regularized Reward Ranking Finetuning（CRRAFT）、Constrained Online DPO（CODPO），这些优化器不仅有效解决了 RLHF 中的多任务优化难题，还具备强大的扩展性，适用于各种规模的 LLM 训练场景。

1. CRPG 优化器：通过结合奖励建模与约束调整，确保模型生成高质量响应，同时防止偏离既定约束。实验中，CRPG 在数学、编程等需要精确计算和逻辑推理的任务中表现尤为突出。

2. CRRAFT 优化器：通过奖励排名策略，只保留满足所有约束条件的生成结果，同时提升奖励值。该优化器在真相问答、指令跟随等任务中表现出色。

3. CODPO 优化器：通过直接偏好优化，使得高奖励值且符合约束的生成结果得以保留，提升模型整体表现。

CGPO 处理多任务场景

在多任务环境下，CGPO 通过“奖励模型 + 多任务判定器 (MoJs) + 优化器”的组合，为每个任务提供量身定制的对齐指导，从而更好地适应每个任务的独特特性，增加实现最优对齐结果的可能性。CGPO 框架的核心包括两个部分：多目标奖励建模和多专家对齐。

1. 多目标奖励建模

CGPO 的多目标奖励建模不同于传统 RLHF（在多目标场景中的方法。传统方法通常为所有任务使用统一的线性组合奖励模型，而 CGPO 则先将提示集 D 按照性质分类为不同、不重叠的子集，即 D = {D1, D2,..., DL}，每个子集 Di 对应一个特定任务，例如包含有害意图的提示归为“有害意图”任务，而一般对话提示归为「普通对话」任务。

然后，针对每个任务，选择一个合适的奖励模型进行训练，以确保每个任务在优化过程中只关注自身的目标指标，避免其他任务目标的干扰。通过这种分类和奖励模型定制，CGPO 能更好地排除不相关或相互矛盾的目标，从而提高在每个任务中达成最优结果的可能性。

2. 多专家对齐

多专家对齐是指为每个任务应用定制化的多任务判定器（MoJs）、奖励模型和优化器设置。在每个任务生成样本后，使用专门为该任务定制的判定器来筛选不符合标准的生成结果。判定器的选择因任务而异，以反映各奖励模型的具体缺点和对 LLM 的预期标准。

例如，在「普通对话」任务中，判定器会专注于评估回复的真实性和拒答情况，从而提升模型的响应性和可靠性。

而在「推理」任务中，则使用基于规则的数学 / 编程判定器，以确保输出的准确性。在有约束要求且需要更广泛探索的任务（如指令跟随、数学和编程）中，CGPO 会采用较宽松的 KL 阈值，并允许每个提示生成更多的样本；而在不需要广泛探索的任务（如普通对话）中，则使用更严格的 KL 阈值，并减少生成样本的数量。

CGPO 在每次迭代中处理各个任务，基于任务特定的提示集、奖励模型、判定器来计算更新的梯度，然后将所有任务的梯度累加，并结合预定义的任务权重更新模型参数。通过这种方式 CGPO 能在多任务、多约束的环境中高效地实现各任务之间的平衡与对齐，优化每个任务的独特目标。

最终，CGPO 的设计使其能够在多任务环境中更灵活地适应不同任务的需求，达成更高效的对齐和优化效果。

实验验证：CGPO 的显著性能提升

在多项任务的测试中，CGPO 展现了显著的性能优势。具体来说，在通用聊天任务（AlpacaEval-2）、STEM 问题解答任务（Arena-Hard）、指令跟随（IFEval）、数学与推理（MATH 和 GSM8K）、编程任务（HumanEval）、以及知识问答（ARC Challenge）中，CGPO 均大幅超越现有的 RLHF 算法如 PPO 和 DPO。

实验数据显示，CGPO 在 AlpacaEval-2 中相较 PPO 提升了 7.4%，在 Arena-Hard 中提升了 12.5%，而在数学推理任务（MATH 和 GSM8K）中，CGPO 表现稳定，分别提升了 2%，在人类评估（HumanEval）中的编程测试上则提升了 5%。

此外，PPO 在编程任务中表现出奖励欺骗行为，导致模型在训练后期出现严重退化，而 CGPO 通过约束优化有效避免了这一问题，确保模型表现稳定。

在 CGPO 与 PPO 的性能对比中，CGPO 结合 CRPG 和 CRRAFT 优化器在多个基准测试中持续提升，尤其在 ARC Challenge、HumanEval、MBPP 等任务上表现出色。

相比之下，PPO 在编码任务中出现显著下滑，表明奖励欺骗问题严重。虽然 CODPO 优化器表现稍弱，但总体上仍优于 DPO 和 PPO，特别是在安全性任务中，CODPO 取得了最佳结果，展示了其在多任务微调中的卓越效果。

通过消融实验可以发现 MoJs 不仅能防止在在编码任务里的奖励欺骗，还显著提升了模型在 MATH 和 GSM8K 中的表现。

结论：CGPO 为多任务学习的未来铺路

CGPO 框架的提出，为强化学习与人类反馈在多任务学习中的应用提供了革命性的新思路。

通过创新的混合评审机制与三大约束优化器，CGPO 不仅有效解决了奖励欺骗和极端多目标优化的难题，还为大型语言模型的后训练提供了更稳定和高效的优化路径。随着研究的深入，未来我们有望看到更多基于 CGPO 的自动化优化方法，进一步提升多任务学习的表现。

参考资料：

https://arxiv.org/pdf/2409.20370

本文链接：http://www.28at.com/showinfo-45-9395-0.html克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：苹果 AI 研究：“猕猴桃”简单算术考倒 o1 和 Llama 等 20 多个最先进模型

下一篇：谷歌推出新付费功能，借助搜索结果对抗 AI 幻觉问题

标签：

热门焦点

中文在线的“元宇宙”故事，资本听腻了？

被誉为“元宇宙”龙头之一的中文在线，这下尴尬了。2022年1月11日，中国移动通信联合会元宇宙产业委员会揭牌，接纳涉足“元宇宙”的8家上市公司，包括中青宝、天下秀
2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

在刚刚结束不久的2021年江苏卫视跨年演唱会上，虚拟邓丽君与歌手周深同台联唱，实现了跨时代合作，而这还不只是“邓丽君”，哔哩哔哩、东方卫视等多家跨年晚会都出现
企业热、用户冷，元宇宙第一站将是“营销场”？

如果说2021年底什么最火热，那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语，在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日，有消息传
如何对一款 NFT 项目进行价值评估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家，因为我相信我们正在见证社会
元宇宙是推动NFT发展的初始家园

现在大家都知道了什么是NFT，但好像离自己的生活还有一定距离。随着我们与NFT 接触增加，该如何将这些数字资产带入我们的日常生活？NFT还是主流吗？如果我们将“主流
NFT世界的艺术家名单

我们汇编了以下艺术家的名单，它包括每个艺术家的简短概述。当然，这份名单肯定不全面，还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
就业年龄歧视如何解决？来Web3看看

上周，我突然想到我的第一份工作实际上是在为一家失败的航空公司制定破产退出计划，那年我们的协议实习生刚出生。在一阵恐慌后，我又花了一点时间反思我这个拥有近1
韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

韩国流行音乐巨头 SM Entertainment 与加密货币交易所 Binance（币安）达成“Play2Create”NFT 合作伙伴关系。SM 娱乐一直在投资打造元宇宙该公司于 2020 年 10
如何在元宇宙中建立品牌忠诚度

Snoop Dogg、耐克、苏富比和普华永道都有什么共同点？他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈

中文在线的“元宇宙”故事，资本听腻了？

2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

企业热、用户冷，元宇宙第一站将是“营销场”？

如何对一款 NFT 项目进行价值评估？

元宇宙是推动NFT发展的初始家园

NFT世界的艺术家名单

就业年龄歧视如何解决？来Web3看看

韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

如何在元宇宙中建立品牌忠诚度

最新推荐

“啫喱”超越微信登顶：首款“元宇宙社交App”会昙花一现吗？

元宇宙社交啫喱、希壤爆款迭出，腾讯慌了吗？

中国区块链产业生态地图报告（2021）

Meta、谷歌、微软竞相涌入元宇宙，小型企业该如何伺机而动？

Web 3如何改变传统HR

花旗集团前高管加入Provenance区块链，担任CEO

猜你喜欢

热门推荐

相关资讯