当前位置:首页 > 元宇宙 > AI

上海交大研究LLM强化学习:Llama与Qwen差异及OctoThinker新突破

来源: 责编: 时间:2025-07-04 12:16:41 133观看
导读在人工智能领域,大型语言模型(LLM)正通过结合任务提示与强化学习(RL)技术,在复杂推理任务上取得显著进展。Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出卓越的推理能力。然而,这一成功并未能在所有基础模型系

在人工智能领域,大型语言模型(LLM)正通过结合任务提示与强化学习(RL)技术,在复杂推理任务上取得显著进展。Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出卓越的推理能力。然而,这一成功并未能在所有基础模型系列中轻松复制,尤其是在Llama系列模型上。Mfo28资讯网——每日最新资讯28at.com

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在竞赛级数学问题上通过大规模强化学习取得了重大突破,推动了对于小型模型(参数少于千亿)强化学习能力的探索。但这些进展大多局限于Qwen模型系列,难以在Llama等模型上重现。预训练流程的缺乏透明度,使得理解预训练如何影响强化学习的扩展变得颇具挑战性。一些非传统研究发现,一次性提示可以增强Qwen的推理能力,但对Llama模型效果有限。尽管OpenWebMath、MathPile等项目致力于构建高质量的数学预训练语料库,但其规模依然有限。Mfo28资讯网——每日最新资讯28at.com

上海交通大学的研究人员针对Qwen和Llama模型,深入探究了中期训练策略对强化学习动态的影响。他们发现,高质量的数学语料库,如MegaMath-Web-Pro,能够同时提升基础模型和强化学习的效果。使用问答式数据,特别是包含长链式推理(Chain-of-Thought, CoT)的数据,可以进一步增强强化学习的效果。然而,长CoT也会在强化学习训练中引入冗长性和不稳定性。研究还发现,在中期训练中应用扩展可以提升下游强化学习的性能。Mfo28资讯网——每日最新资讯28at.com

基于这些发现,研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略。他们首先使用2000亿个token训练基础模型,然后在三个以CoT为中心的分支上使用200亿个token进行训练。这一策略成功生成了具有强大强化学习兼容性的OctoThinker模型。Mfo28资讯网——每日最新资讯28at.com

在强化学习配置和基准评估方面,研究人员使用MATH8K数据集进行训练提示,配置包括全局训练批次大小128、每个查询16个rollout响应以及PPO最小批次大小64。实验在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上进行。在评估中,基础语言模型采用少样本提示,而强化学习调优模型则在GSM8K、MATH500、OlympiadBench和AMC23等指标任务上采用零样本提示。Mfo28资讯网——每日最新资讯28at.com

在强化学习训练期间,Qwen模型的响应长度持续增加并保持在合理范围内,而Llama模型则表现出异常行为,平均响应长度飙升至4096个token。评估结果显示,强化学习调优后的Qwen2.5-3B在各个基准测试中均有所提升,而Llama-3.2-3B的提升则微乎其微。Mfo28资讯网——每日最新资讯28at.com

OctoThinker模型在强化学习兼容性方面表现优异。在13个数学基准测试中,每个OctoThinker分支都比原始Llama基础模型提升了10%-20%,并且在所有规模的稳定阶段模型上都取得了持续提升。OctoThinker-Zero系列在强化学习扩展过程中展现出多样化的思维行为,其中OctoThinker-Long变体表现尤为出色。在比较三个3B规模基础模型时,OctoThinker-Long-3B的表现优于原始Llama-3.2-3B模型,并与以强大推理能力和广泛预训练而闻名的Qwen2.5-3B模型达到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑战性的基准测试中。Mfo28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯MIT新研究:AI写作工具使用或致大脑活跃度下滑07-03SciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼07-03谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平07-03荣耀总裁方飞:苹果入局折叠屏,是激励也是新起点07-03OpenAI坚持英伟达与AMD,暂不全面采用谷歌TPU芯片07-03Crunchyroll新动画字幕出错,疑似AI生成引热议,观众呼吁保证创作质量07-03三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭现在的手游和应用不断升级,对配置的要求越来越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,进一步优化性能,提升新机体验。新机也被官方称为三星超轻薄折叠旗舰,看来今年的新折叠屏不断追求轻薄,甚至是与直板机…07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5采用全新AI交互方式,以更轻薄的折叠旗舰形态与行业领先的AI智能体实力,释放PC级生产力,开启智能交互体验的全新想象,用科技拓宽一小时的生命宽度,带来一辈子的温暖陪伴。荣耀正式宣布支持MC…07-03中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿07-03荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版07-03荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5评测:轻薄新巅峰,全能AI折叠屏旗舰重塑标准在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02荣耀Magic V5震撼登场:纤薄新纪录,满血配置,售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02荣耀Magic V5深度评测:轻薄新标杆,AI折叠屏的全面进化07-02点击查看更多 +全站最新2025云手机市场风向:蜂窝云手机以高性价比全场景方案领跑2025云手机市场风向:蜂窝云手机以高性价比全场景方案领跑2025年云手机推荐:五大品牌性能比拼,性价比之选揭晓2025年云手机推荐:五大品牌性能比拼,性价比之选揭晓宇宙信使:揭秘玻璃陨石的奥秘与魅力宇宙信使:揭秘玻璃陨石的奥秘与魅力2025上半年机票均价740元,暑运旺季来临价格上扬至839元2025上半年机票均价740元,暑运旺季来临价格上扬至839元美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道美波音737客机飞行中襟翼掉落 疑似坠入居民区车道热门内容
  • 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
  • 马斯克宣布Grok 4大模型即将面世,或专为编程打造
  • 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
  • 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
  • 苹果AI「Apple Intelligence」国行版,终于要来了吗?
  • QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
  • 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
  • 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
  • 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
  • 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
  • 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
  • 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
  • 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
  • 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
  • 《Artificial》今夏开机,揭秘OpenAI 2023年CEO罢免又复职风波
本栏最新三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起

本文链接:http://www.28at.com/showinfo-45-14352-0.html上海交大研究LLM强化学习:Llama与Qwen差异及OctoThinker新突破

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀Magic V5震撼发布:续航与轻薄双赢,友商折叠屏面临新挑战

下一篇: MIT新研究:AI写作工具使用或致大脑活跃度下滑

标签:
  • 热门焦点
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 全面拥抱“虚拟世界”,摩登天空要打造“音乐元宇宙”

    作者:袁佳琦沈黎晖不怎么打游戏,但许多事儿在他眼里都“有意思”。好玩,有意思,是他的口头禅,在接受娱乐独角兽的采访过程中,他多次提到,做虚拟音乐人,“是件挺好玩的
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • 为什么元宇宙将永远改变体育和你的生活?

    自从Facebook更名为Meta以来,Metaverse这个词已经被大家所熟知。但是当Metaverse仍然被许多人视为一个虚拟的平行世界时,一些项目已经显示出Metaverse将如何永远
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
  • 元宇宙专题二:GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+DEFI(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
Top