当前位置:首页 > 元宇宙 > AI

上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

来源: 责编: 时间:2025-06-05 09:38:38 143观看
导读 6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。背景简介大型语言模型(LLMs)近年来在推理能力上的突

6 月 4 日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府,组建国际团队研发新方法,通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。MAf28资讯网——每日最新资讯28at.com

背景简介MAf28资讯网——每日最新资讯28at.com

大型语言模型(LLMs)近年来在推理能力上的突破,让强化学习(RL)的应用范围从单一任务扩展到更广泛的场景,这种进步赋予了模型更强的泛化能力和逻辑推理能力。MAf28资讯网——每日最新资讯28at.com

然而,与传统的模仿学习不同,强化学习需要更高的计算资源来支持从经验中学习,核心问题在于策略熵(反映了模型在利用已知策略和探索新策略之间的平衡)的下降。MAf28资讯网——每日最新资讯28at.com

熵值过低会导致模型过度依赖已有策略,丧失探索能力。这一探索-利用权衡(exploitation-exploration trade-off)是强化学习的基础,如何控制策略熵成为训练中的关键难题。MAf28资讯网——每日最新资讯28at.com

策略熵崩溃的理论与实践突破MAf28资讯网——每日最新资讯28at.com

为解决这一问题,研究团队提出了一个经验公式:R = −a exp H + b,其中 H 代表策略熵,R 为下游任务表现,a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系,指出熵耗尽是性能瓶颈。MAf28资讯网——每日最新资讯28at.com

MAf28资讯网——每日最新资讯28at.com

研究进一步分析了熵动态变化,发现其受动作概率与 logits 变化协方差的驱动。为此,团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术,分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。MAf28资讯网——每日最新资讯28at.com

MAf28资讯网——每日最新资讯28at.com

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,覆盖数学任务,结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能,尤其在 AIME24 和 AIME25 等高难度基准测试中,32B 模型性能提升高达 15.0%。MAf28资讯网——每日最新资讯28at.com

MAf28资讯网——每日最新资讯28at.com

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试,参数规模从 0.5B 到 32B 不等,涵盖数学和编程任务的 8 个公开基准测试。MAf28资讯网——每日最新资讯28at.com

MAf28资讯网——每日最新资讯28at.com

训练采用 veRL 框架和零样本设置,结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明,Clip-Cov 和 KL-Cov 技术能维持更高的熵水平,例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。MAf28资讯网——每日最新资讯28at.com

MAf28资讯网——每日最新资讯28at.com

这不仅解决了策略熵崩溃问题,也为强化学习在语言模型中的扩展提供了理论支持。研究强调,熵动态是性能提升的关键瓶颈,未来需进一步探索熵管理策略,以推动更智能语言模型的发展。MAf28资讯网——每日最新资讯28at.com

附上参考地址MAf28资讯网——每日最新资讯28at.com

The Entropy Mechanism of Reinforcement Learning for Large Language Model ReasoningMAf28资讯网——每日最新资讯28at.com

The Entropy Mechanism of Reinforcement Learning for Reasoning Language ModelsMAf28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13428-0.html上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: “立即行动!”:OpenAI CEO 奥尔特曼示警,AI 时代企业不行动就出局

下一篇: Claude Explains 首秀:AI 撰写专业技术博客,探索人机内容协作新模式

标签:
  • 热门焦点
  • 内容行业大变天,爆款全靠AI?

    出品 | 微果酱(wjam123456)作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料,似乎一夜之间便呼啸而来。无论是资本的风向标,抑或是生活工作的辅助、流量口,还是茶余饭
  • 一个视频涨粉百万,柳夜熙们能成为元宇宙的“船票”吗?

    当数字人成为一种生意,我们更关心的是,他们如何赚到钱,以及这意味着什么?01#“柳夜熙”爆火之后不知道大家还记不记得,去年10月31日万圣节,有一位虚拟美妆
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 韩国建立元宇宙生态系统,智度股份发布元宇宙社区Meta彼岸

    财联社|区块链日报28日讯 今日《元宇宙新鲜事》有:杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业;韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • 利用元宇宙平台10天收入160万,风口还是虎口?

    美国Meta平台有限公司,也就是原来的脸书公司,9日宣布,公司旗下的虚拟现实应用《地平线世界》正式向美国和加拿大的18岁以上人群开放。这也是目前Meta推出的最具象
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
Top