当前位置:首页 > 元宇宙 > AI

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

来源: 责编: 时间:2025-06-05 09:38:38 153观看
导读 6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。背景简介大型语言模型(LLMs)近年来在推理能力上的突

6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。LBK28资讯网——每日最新资讯28at.com

背景简介LBK28资讯网——每日最新资讯28at.com

大型语言模型(LLMs)近年来在推理能力上的突破,让强化学习(RL)的应用范围从单一任务扩展到更广泛的场景,这种进步赋予了模型更强的泛化能力和逻辑推理能力。LBK28资讯网——每日最新资讯28at.com

然而,与传统的模仿学习不同,强化学习需要更高的计算资源来支持从经验中学习,核心问题在于策略熵(反映了模型在利用已知策略和探索新策略之间的平衡)的下降。LBK28资讯网——每日最新资讯28at.com

熵值过低会导致模型过度依赖已有策略,丧失探索能力。这一探索-利用权衡(exploitation-exploration trade-off)是强化学习的基础,如何控制策略熵成为训练中的关键难题。LBK28资讯网——每日最新资讯28at.com

策略熵崩溃的理论与实践突破LBK28资讯网——每日最新资讯28at.com

为解决这一问题,研究团队提出了一个经验公式:R = −a exp H + b,其中 H 代表策略熵,R 为下游任务表现,a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系,指出熵耗尽是性能瓶颈。LBK28资讯网——每日最新资讯28at.com

LBK28资讯网——每日最新资讯28at.com

研究进一步分析了熵动态变化,发现其受动作概率与 logits 变化协方差的驱动。为此,团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术,分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。LBK28资讯网——每日最新资讯28at.com

LBK28资讯网——每日最新资讯28at.com

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,覆盖数学任务,结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能,尤其在 AIME24 和 AIME25 等高难度基准测试中,32B 模型性能提升高达 15.0%。LBK28资讯网——每日最新资讯28at.com

LBK28资讯网——每日最新资讯28at.com

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试,参数规模从 0.5B 到 32B 不等,涵盖数学和编程任务的 8 个公开基准测试。LBK28资讯网——每日最新资讯28at.com

LBK28资讯网——每日最新资讯28at.com

训练采用 veRL 框架和零样本设置,结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明,Clip-Cov 和 KL-Cov 技术能维持更高的熵水平,例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。LBK28资讯网——每日最新资讯28at.com

LBK28资讯网——每日最新资讯28at.com

这不仅解决了策略熵崩溃问题,也为强化学习在语言模型中的扩展提供了理论支持。研究强调,熵动态是性能提升的关键瓶颈,未来需进一步探索熵管理策略,以推动更智能语言模型的发展。LBK28资讯网——每日最新资讯28at.com

附上参考地址LBK28资讯网——每日最新资讯28at.com

The Entropy Mechanism of Reinforcement Learning for Large Language Model ReasoningLBK28资讯网——每日最新资讯28at.com

The Entropy Mechanism of Reinforcement Learning for Reasoning Language ModelsLBK28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13428-0.html上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: “立即行动!”:OpenAI CEO 奥尔特曼示警,AI 时代企业不行动就出局

下一篇: Claude Explains 首秀:AI 撰写专业技术博客,探索人机内容协作新模式

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 内容行业大变天,爆款全靠AI?

    出品 | 微果酱(wjam123456)作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料,似乎一夜之间便呼啸而来。无论是资本的风向标,抑或是生活工作的辅助、流量口,还是茶余饭
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 超跑与NFT的首次结合,兰博基尼能否破局?

    兰博基尼公司近日称即将推出它的首款NFT,并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车,并宣布将拍卖与瑞士
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
Top