当前位置:首页 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

来源: 责编: 时间:2025-02-05 15:44:00 129观看
导读 DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。rE228资讯网——每日最新资讯28at.com

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。rE228资讯网——每日最新资讯28at.com

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。rE228资讯网——每日最新资讯28at.com

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。rE228资讯网——每日最新资讯28at.com

为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。rE228资讯网——每日最新资讯28at.com

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。rE228资讯网——每日最新资讯28at.com

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

超过 70% 的错误回答中至少包含一个正确的思路。此外,在超过 50% 的错误回答中,有 10% 以上的思路是正确的。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

如下图所示的例子,例如,Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点 (x, y) 的有效方法。rE228资讯网——每日最新资讯28at.com

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约 7270 个 token,却依然未能得出正确答案。rE228资讯网——每日最新资讯28at.com

最终,它得出一个缺乏扩展 COT 过程支持的猜测答案。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

基于这些观察,研究人员提出了一个用于量化 Underthinking 程度的指标(Underthinking Metric)。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

这个指标通过测量错误答案中的 token 使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。rE228资讯网——每日最新资讯28at.com

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。rE228资讯网——每日最新资讯28at.com

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。rE228资讯网——每日最新资讯28at.com

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。rE228资讯网——每日最新资讯28at.com

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。rE228资讯网——每日最新资讯28at.com

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。rE228资讯网——每日最新资讯28at.com

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?rE228资讯网——每日最新资讯28at.com

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试 10 分钟再换思路”。rE228资讯网——每日最新资讯28at.com

技术细节上,TIP 会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。rE228资讯网——每日最新资讯28at.com

例如,当模型开始写“Alternatively, we can consider…”时,TIP 会通过调整参数(惩罚强度 α 和持续时间 β),抑制这种过早的切换倾向。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

实验结果显示,加入 TIP 能让模型在数学测试上的准确率上升,同时 UT Score 下降,说明既减少了无效切换,又提高了答案质量。rE228资讯网——每日最新资讯28at.com

例如在 AIME2024 数学竞赛测试上,加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%,同时 UT Score 从 72.4 降至 68.2。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。rE228资讯网——每日最新资讯28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察,rE228资讯网——每日最新资讯28at.com

对于 DeepSeek-R1 和所有推理模型,错误的答案更长,而正确的答案要短得多。rE228资讯网——每日最新资讯28at.com

基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。rE228资讯网——每日最新资讯28at.com

并行运行 5 次模型,从答案中选择 tokens 最少的。rE228资讯网——每日最新资讯28at.com

初步实验结果表示,简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率,比 Consensus Decoding 更好也更快。rE228资讯网——每日最新资讯28at.com

rE228资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2501.18585

参考链接:rE228资讯网——每日最新资讯28at.com

[1]https://x.com/tuzhaopeng/status/1885179412163027406rE228资讯网——每日最新资讯28at.com

[2]https://x.com/AlexGDimakis/status/1885447830120362099rE228资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风rE228资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 威胁下,OpenAI 称考虑开源旧 AI 模型

下一篇: 小鹏汽车放大招!5年0息0首付购车,最高贴息5.7万引关注

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

    虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术门槛相对降低,成本有所回落;资本热度上升,受Metav
  • 2022开年最热投资赛道竟是虚拟人,背后隐藏了什么商业价值?

    在刚刚结束不久的2021年江苏卫视跨年演唱会上,虚拟邓丽君与歌手周深同台联唱,实现了跨时代合作,而这还不只是“邓丽君”,哔哩哔哩、东方卫视等多家跨年晚会都出现
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    扩展现实(XR)通过计算机将真实与虚拟相结合,打造了一个可人机交互的虚拟环境,将AR、VR、MR多种技术相融合,为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
  • 借VR产业东风,江西抢滩布局“元宇宙”

    自2016年起就在VR上倾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技术是通往元宇宙的关键接口,使人们可以在数字空间和物理空间自由穿梭。自2016年起
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top