当前位置:首页 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

来源: 责编: 时间:2025-02-05 15:44:00 177观看
导读 DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。89C28资讯网——每日最新资讯28at.com

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。89C28资讯网——每日最新资讯28at.com

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。89C28资讯网——每日最新资讯28at.com

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。89C28资讯网——每日最新资讯28at.com

为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。89C28资讯网——每日最新资讯28at.com

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。89C28资讯网——每日最新资讯28at.com

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

超过 70% 的错误回答中至少包含一个正确的思路。此外,在超过 50% 的错误回答中,有 10% 以上的思路是正确的。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

如下图所示的例子,例如,Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点 (x, y) 的有效方法。89C28资讯网——每日最新资讯28at.com

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约 7270 个 token,却依然未能得出正确答案。89C28资讯网——每日最新资讯28at.com

最终,它得出一个缺乏扩展 COT 过程支持的猜测答案。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

基于这些观察,研究人员提出了一个用于量化 Underthinking 程度的指标(Underthinking Metric)。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

这个指标通过测量错误答案中的 token 使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。89C28资讯网——每日最新资讯28at.com

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。89C28资讯网——每日最新资讯28at.com

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。89C28资讯网——每日最新资讯28at.com

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。89C28资讯网——每日最新资讯28at.com

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。89C28资讯网——每日最新资讯28at.com

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。89C28资讯网——每日最新资讯28at.com

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?89C28资讯网——每日最新资讯28at.com

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试 10 分钟再换思路”。89C28资讯网——每日最新资讯28at.com

技术细节上,TIP 会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。89C28资讯网——每日最新资讯28at.com

例如,当模型开始写“Alternatively, we can consider…”时,TIP 会通过调整参数(惩罚强度 α 和持续时间 β),抑制这种过早的切换倾向。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

实验结果显示,加入 TIP 能让模型在数学测试上的准确率上升,同时 UT Score 下降,说明既减少了无效切换,又提高了答案质量。89C28资讯网——每日最新资讯28at.com

例如在 AIME2024 数学竞赛测试上,加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%,同时 UT Score 从 72.4 降至 68.2。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。89C28资讯网——每日最新资讯28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察,89C28资讯网——每日最新资讯28at.com

对于 DeepSeek-R1 和所有推理模型,错误的答案更长,而正确的答案要短得多。89C28资讯网——每日最新资讯28at.com

基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。89C28资讯网——每日最新资讯28at.com

并行运行 5 次模型,从答案中选择 tokens 最少的。89C28资讯网——每日最新资讯28at.com

初步实验结果表示,简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率,比 Consensus Decoding 更好也更快。89C28资讯网——每日最新资讯28at.com

89C28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2501.18585

参考链接:89C28资讯网——每日最新资讯28at.com

[1]https://x.com/tuzhaopeng/status/188517941216302740689C28资讯网——每日最新资讯28at.com

[2]https://x.com/AlexGDimakis/status/188544783012036209989C28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风89C28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 威胁下,OpenAI 称考虑开源旧 AI 模型

下一篇: 小鹏汽车放大招!5年0息0首付购车,最高贴息5.7万引关注

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • 元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    作者:狂人 不知不觉间,QQ已经迎来了第23个生日。作为国内社交平台的起点,QQ可谓是睥睨全网,不仅有庞大的用户群体,还将虚拟形象及QQ整合成在线虚拟社区,开启了时髦
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
  • 我们离元宇宙的实现只差一副眼镜?

    近日的苹果春季新品发布会,想必许多人都守在了屏幕前,就为等待传说中的首款AR Glass。在发布会之前,苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频
Top