当前位置：首页 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

来源：责编：时间：2025-02-05 15:44:00 197观看

导读 DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败 —— 这种

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。

最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking（欠思考）。

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学，主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。

通过分析 AI 的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个 tokens 对解题毫无贡献。

这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析，团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上，对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看，类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token，原因是思维切换频率增加了 418%。

为了深入分析这一现象，研究团队开发了一套评估框架，用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到，许多模型在回答开头阶段的思路是正确的，但并未继续深入完成推理。

超过 70% 的错误回答中至少包含一个正确的思路。此外，在超过 50% 的错误回答中，有 10% 以上的思路是正确的。

如下图所示的例子，例如，Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程，启动了正确的解释。将两个表达式设为相等，是寻找满足这两个方程的公共点 (x, y) 的有效方法。

然而，模型并未专注于深入探索这一合理思路，使用进一步的代数操作和优化技术进行分析，而是频繁切换思路，额外消耗了约 7270 个 token，却依然未能得出正确答案。

最终，它得出一个缺乏扩展 COT 过程支持的猜测答案。

基于这些观察，研究人员提出了一个用于量化 Underthinking 程度的指标（Underthinking Metric）。

这个指标通过测量错误答案中的 token 使用效率来评估推理效率，计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。

实验结果表明，所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在 MATH500-Hard 和 GPQA Diamond 数据集上，性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时，其 UT 得分也更高，表明错误回答中存在更多思维不足。

这意味着，尽管模型整体能力更强，但在不确定时可能生成更长但效率较低的推理过程，可能是因为模型探索了多个错误的推理路径，却未能有效收敛到正确解答。

相反，在 AIME2024 测试集中，DeepSeek-R1-671B 模型不仅取得了更高的准确率，还表现出较低的 UT 得分，反映出较少的思维不足和更高的 token 效率。

这表明模型在该任务中，即使未得出正确答案，其推理过程依然保持专注和高效，团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”？

研究者借鉴了人类考试策略，提出了一种“思路切换惩罚机制”（Thought Switching Penalty，TIP）。其原理类似于考试时给自己定规矩：“先专注当前方法，至少尝试 10 分钟再换思路”。

技术细节上，TIP 会对触发思路切换的关键词施加惩罚，降低这些词在解码过程中的生成概率，迫使模型在当前路径上探索更久。

例如，当模型开始写“Alternatively, we can consider…”时，TIP 会通过调整参数（惩罚强度 α 和持续时间 β），抑制这种过早的切换倾向。

实验结果显示，加入 TIP 能让模型在数学测试上的准确率上升，同时 UT Score 下降，说明既减少了无效切换，又提高了答案质量。

例如在 AIME2024 数学竞赛测试上，加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%，同时 UT Score 从 72.4 降至 68.2。

并且这种“无痛升级”无需重新训练模型，仅需调整解码策略，展现了其实用价值。

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察，

对于 DeepSeek-R1 和所有推理模型，错误的答案更长，而正确的答案要短得多。

基于此，他们提出一个简单的解决办法，称为“简洁解码”（Laconic decoding）。

并行运行 5 次模型，从答案中选择 tokens 最少的。

初步实验结果表示，简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率，比 Consensus Decoding 更好也更快。

论文地址：https://arxiv.org/ abs / 2501.18585

参考链接：

[1]https://x.com/tuzhaopeng/status/1885179412163027406

[2]https://x.com/AlexGDimakis/status/1885447830120362099

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨西风

本文链接：http://www.28at.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： DeepSeek 威胁下，OpenAI 称考虑开源旧 AI 模型

下一篇：小鹏汽车放大招！5年0息0首付购车，最高贴息5.7万引关注

标签：

热门焦点

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

今日《元宇宙新鲜事》有：“元宇宙第一股”Roblox首份年报未达预期致盘后股价暴跌15.28%；YouTube宣布进军区块链和元宇宙；摩根大通成为首家进入元宇宙的银行。【中
2022年中国元宇宙系列报告：底层架构研究：虚拟引擎，擎动未来

“虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下，虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力，能够高效快速的实现大量交互场
国内涌现70余家数字藏品平台：合规、流量与利润在博弈

作者：杨郑君2月16日，迅雷链企业数字藏品服务平台正式上线，继阿里、腾讯、京东、百度、网易等之后，又一家互联网企业正式加入到火热的数字藏品平台的竞争中。除互联
纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

2 月 22 日，纽约证券交易所 (NYSE) 的母公司洲际交易所 (ICE) 宣布，它将持有私人数字证券市场 tZERO 的所有权。根据公告，ICE 将成为 tZero 的“重要”少数股东，但
NFT 技术将传世之作带入博物馆

意大利四大博物馆已与一个项目合作，该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了科技公司Cincello的国际专
NFT自动售货机来啦！

“纽约市有一台售卖 Solana NFT 的自动售货机，用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT，无需使用加密货币。由于基于 Solana 链的 N
知识产权可能在元宇宙中“消失”？

开篇老雅痞先来划重点：一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼，声称NFT侵犯了他们的知识产权。Inside
超级账本Julian Gordon：联盟链与公链的竞争不是非此即彼

在2021年《福布斯》区块链50强榜单中，29家企业使用Hyperledger超级账本技术，占比近60%。同年，研究机构Blockdata发布了的调查报告显示，访问Top100上市公司中，有 81
全球十大元宇宙概念游戏

A股市场中，不少游戏公司早早搭上了元宇宙概念。举例，中青宝宣称将发布一款元宇宙概念的模拟经营类游戏，尽管游戏尚在研发中，这一消息已经让中青宝的股价在51个交易

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

新研究揭示 DeepSeek o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

2022年中国元宇宙系列报告：底层架构研究：虚拟引擎，擎动未来

国内涌现70余家数字藏品平台：合规、流量与利润在博弈

纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

NFT 技术将传世之作带入博物馆

NFT自动售货机来啦！

知识产权可能在元宇宙中“消失”？

超级账本Julian Gordon：联盟链与公链的竞争不是非此即彼

全球十大元宇宙概念游戏

最新推荐

VR/AR迷失元宇宙“硝烟”

元宇宙这一年：技术加速落地，助传统行业走向新阶段

【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣，究竟有何潜力？

元宇宙需要的5个重要安全功能

元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

猜你喜欢

热门推荐

相关资讯