当前位置:首页 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

来源: 责编: 时间:2025-02-05 15:44:00 163观看
导读 DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。0gv28资讯网——每日最新资讯28at.com

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。0gv28资讯网——每日最新资讯28at.com

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。0gv28资讯网——每日最新资讯28at.com

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。0gv28资讯网——每日最新资讯28at.com

为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。0gv28资讯网——每日最新资讯28at.com

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。0gv28资讯网——每日最新资讯28at.com

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

超过 70% 的错误回答中至少包含一个正确的思路。此外,在超过 50% 的错误回答中,有 10% 以上的思路是正确的。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

如下图所示的例子,例如,Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点 (x, y) 的有效方法。0gv28资讯网——每日最新资讯28at.com

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约 7270 个 token,却依然未能得出正确答案。0gv28资讯网——每日最新资讯28at.com

最终,它得出一个缺乏扩展 COT 过程支持的猜测答案。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

基于这些观察,研究人员提出了一个用于量化 Underthinking 程度的指标(Underthinking Metric)。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

这个指标通过测量错误答案中的 token 使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。0gv28资讯网——每日最新资讯28at.com

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。0gv28资讯网——每日最新资讯28at.com

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。0gv28资讯网——每日最新资讯28at.com

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。0gv28资讯网——每日最新资讯28at.com

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。0gv28资讯网——每日最新资讯28at.com

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。0gv28资讯网——每日最新资讯28at.com

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?0gv28资讯网——每日最新资讯28at.com

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试 10 分钟再换思路”。0gv28资讯网——每日最新资讯28at.com

技术细节上,TIP 会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。0gv28资讯网——每日最新资讯28at.com

例如,当模型开始写“Alternatively, we can consider…”时,TIP 会通过调整参数(惩罚强度 α 和持续时间 β),抑制这种过早的切换倾向。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

实验结果显示,加入 TIP 能让模型在数学测试上的准确率上升,同时 UT Score 下降,说明既减少了无效切换,又提高了答案质量。0gv28资讯网——每日最新资讯28at.com

例如在 AIME2024 数学竞赛测试上,加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%,同时 UT Score 从 72.4 降至 68.2。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。0gv28资讯网——每日最新资讯28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察,0gv28资讯网——每日最新资讯28at.com

对于 DeepSeek-R1 和所有推理模型,错误的答案更长,而正确的答案要短得多。0gv28资讯网——每日最新资讯28at.com

基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。0gv28资讯网——每日最新资讯28at.com

并行运行 5 次模型,从答案中选择 tokens 最少的。0gv28资讯网——每日最新资讯28at.com

初步实验结果表示,简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率,比 Consensus Decoding 更好也更快。0gv28资讯网——每日最新资讯28at.com

0gv28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2501.18585

参考链接:0gv28资讯网——每日最新资讯28at.com

[1]https://x.com/tuzhaopeng/status/18851794121630274060gv28资讯网——每日最新资讯28at.com

[2]https://x.com/AlexGDimakis/status/18854478301203620990gv28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风0gv28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 威胁下,OpenAI 称考虑开源旧 AI 模型

下一篇: 小鹏汽车放大招!5年0息0首付购车,最高贴息5.7万引关注

标签:
  • 热门焦点
  • 欧盟人工智能法案:四种AI系统风险类型的划分及监管措施

    作者:赵志东 蔡佳雯来源:区块链日报该法案采用风险分级的规制路径,将人工智能系统的风险划分成不可接受的风险、高风险、有限风险和轻微风险四种类型,并针对不同类型施加了不同
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
Top