当前位置：首页 > 元宇宙 > AI

DeepSeek R1 遇难题 142 次 "I give up "，研究还称需增加推理时机控制机制

来源：责编：时间：2025-02-15 15:47:34 156观看

导读最新大语言模型推理测试引众议，DeepSeek R1 常常在提供错误答案前就“我放弃”了？？Cursor 刚刚参与了一项研究，他们基于 NPR 周日谜题挑战（The Sunday Puzzle），构建了一个包含近 600 个问题新基准测试。这些谜题特点

最新大语言模型推理测试引众议，DeepSeek R1 常常在提供错误答案前就“我放弃”了？？

Cursor 刚刚参与了一项研究，他们基于 NPR 周日谜题挑战（The Sunday Puzzle），构建了一个包含近 600 个问题新基准测试。

这些谜题特点是很好理解，不需要专业知识就能看懂，然鹅解决起来却没那么容易。

举个栗子：

想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母，你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么？

标准答案是 alpha → aloha，很容易验证。

但这样的题，即便是在美国长大讲英语的成年人，五天也很难解出来。

研究人员用此最新基准，对 OpenAI o1、OpenAI o3-mini、DeepSeek R1 和 Google Gemini Flash Thinking 等模型进行测试，结果发现这些最新一代的推理模型解决这样的谜题也很具挑战性。

他们还表示，研究揭示了一些新的模型“故障”模式，这在现有的基准测试中并不明显。

比如 DeepSeek R1 会在推理过程中直接放弃，然后给一个它明知是错误的答案，有时还会陷入“无限思考”状态。

具体来看看是怎么回事。

周日谜题挑战数据集

NPR Sunday Puzzle Challenge，是美国一档广播智力游戏节目，自 1987 年以来一直在播，每周日听众都会收到一个简短谜题。

这些谜题通常涉及字母游戏，只需要普通的英语知识和美国文化常识就能理解。

不过每个谜题通常只有一个或极少数正确答案，题目难度各异，即便听众有整整五天的时间思考，有时最后也只有少数听众能想出正确答案。而当答案揭晓时，听众们都会恍然大悟觉得这个答案既正确又优雅。

最近，来自韦尔斯利学院、得克萨斯大学奥斯汀分校、查理大学、Cursor、欧柏林学院、美国东北大学的研究团队，从网上抓取了 13 年的周日谜题挑战记录构建了一个数据集。

他们认为，目前一些最新基准测试用非常难的任务评估模型，比如大学级数学竞赛问题、编程问题以及需要在学术领域深入的领域专业知识问题，这种设计不仅对人类来说难以解决，而且也非常难以理解和验证。

也就是说，大多数人或无法检查答案是否确实正确，或无法验证模型在推理上是否正确且有效。

于是，他们从这个节目的“off-air challenges”中整理出了近 600 个问题作为测试数据集。

这些题目很好理解且便于验证。

在整理过程中，他们补充了必要的上下文信息（时间、地点等），比如在一个关于电影名称的谜题中，特意标注了具体年份，避免歧义。

电影 Wild Wild West 的首字母缩写是三个 W。请问去年2013 年哪部著名电影的首字母缩写有两个 W？

标准答案：The Wolf Of Wall Street

为确保每个问题的答案清晰明确，大多数挑战都有一个或少数几个独特答案，像下面这样婶儿有许多答案的问题都被 pass 掉了：

然后团队用该基准评估了一众顶流推理模型，包括 OpenAI o1、o1-mini、o3-mini，DeepSeekR1、谷歌 Gemini 2.0 Flash Thinking Experimental01-21，作为对照，还测试了不具备推理功能的 GPT-4o 和 Claude Sonnet 3.5。

测试采用 zero-shot prompting，直接向模型提供问题，不给任何额外的格式说明或指导。

不过有些谜题题目本身自带示例说明：

SWITZERLAND（瑞士）的字母可以重新排列成 LIZARD（蜥蜴）和 NEWTS（蝾螈）两个单词，LIZARD 是一个动物的单数形式，而 NEWTS 是复数形式。请再说出另一个具有相同特性的国家。即另一个其字母可以重新排列来拼写两种动物 —— 一个单数和一个复数的国家。它是一个主要国家。这个国家是哪一个？

标准答案：Mexico（墨西哥）→ ox（牛），mice（老鼠）

团队给出的最终测试结果却出人意料。

根据下图该基准的平均准确率，OpenAI o1 表现最优，准确率为 59%；然后是 o3-mini，准确率为 47%，DeepSeek R1 准确率为 35%。

不具备推理功能的 GPT-4o 和 Claude Sonnet 3.5 明显不如推理模型。

出人意料的点在于，在博士级科学问题 GPQA 基准上，DeepSeek R1、OpenAI o1 和 o3-mini 的表现差距不大，然而在该基准上 o1 在通用知识方面却显示出明显的优势。

团队还观察到一些新的模型“故障”模式 —— 推理半道“I give up”。

这种放弃表现出两种形式，一种是给出一个在推理过程中完全没有出现过的“凭空”答案。

另一种是明知违反问题约束但仍然给出答案，常发生在下面这种问题中：

想一个包含三个音节的八个字母的单词，每个音节中都包含字母“I”，但奇怪的是，没有一个“I”发音，无论是长音还是短音。答案不是复数形式。这个单词是什么？

标准答案：Daiquiri

以 DeepSeek R1 为例，它给出了“queueing”这个答案，并直接表示这个答案“有点牵强”，还解释有些人可能会把“queueing”发音为“kyoo-ee-ing”。

团队表示，在 595 个测试问题中，DeepSeek R1 在 142 个问题上明确“放弃”。

此外，他们还发现 R1 等会陷入“无限思考”的状态，在达到 32768token 上下文输出限制前无法完成推理，并没有 </think>。

特别在以下两个挑战中 R1 表现不佳，在 10 次试验中有 5 次未能完成推理。

即使将限制提高到 128K，这个问题仍然存在，由此，团队认为 R1 需要某种推理时机控制机制，鼓励模型在接近输出 token 限制时结束推理。

研究人员还发现，这些推理模型有时会表现出异常的不确定性，可能会提出一个答案，马上又收回，然后尝试给出新答案。

在某些情况下，模型很早就找到了正确答案，但仍会继续探索其它可能性。

最后团队分析了推理长度与准确率的关系，发现在输出约 10000 个 token 后，继续推理对提升准确率的帮助不大。

对于 R1 来说，在输出约 3000 token 时就开始超过 Gemini Thinking 的表现。

新基准引发网友热议

这项研究发布后，在 Hacker News 上引起网友热烈讨论。

其中最具争议的一个点在于，有网友认为这项研究并非传统意义上的“推理”挑战：

解决这些问题所需的核心技能似乎是知晓“流行品牌名”或“知名演员”等类别的所有已知名称，检查它们是否符合。

作为人类，你可能会因为不知道某个特别名称而永远无法回答某个问题，例如不是美国人，我不知道“Citgo”是什么，我这辈子从未见过这个名。

网友表示这的确是一个 AI 系统原则上可能真正擅长的事情，但当测试内容过于侧重“记忆回忆”时，把它称为“推理”似乎很奇怪。

如果问题是多项选择的，消除了让候选答案浮现在脑海中的挑战，那么我会同意这是一个“推理”测试。

持此观点的网友不在少数。

我有同样的想法。这让我想起解决 Project Euler 问题，通常存在一种明显的简单方法可以保证得出正确答案，但如果执行到完成，将消耗过多的内存 / 计算资源。如果提示模型制定一种有效解决这些挑战的策略，而不是直接解决它们，模型的表现可能会好得多…… 这表明了一个潜在的改进方向。

另外，针对模型表现不一，也有网友提出能否确定这些谜题和答案没被加到模型的训练数据中的疑问。

聚焦到研究结果上，网友对研究中的发现很感兴趣：

有趣的是，模型在推理中经常包含正确答案，但却没能意识到这一点。

数草莓问题中“r”这一问题也再被网友搬出，有网友认为模型表现不佳的关键还是在分词器上。

对于这项研究你怎么看？

论文链接：https://arxiv.org/abs/2502.01584

测试结果和数据集：https://huggingface.co/spaces/nuprl/verbal-reasoning-challenge

参考链接：https://news.ycombinator.com/item?id=42992336

本文来自微信公众号：量子位（ID：QbitAI），作者：西风

本文链接：http://www.28at.com/showinfo-45-10774-0.htmlDeepSeek R1 遇难题 142 次 "I give up "，研究还称需增加推理时机控制机制

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：百度：文心下一代模型 4.5 系列 6 月 30 日起开源

下一篇：谷歌 Gemini 宣布上线“全局记忆”功能，订阅用户可令 AI 回忆曾经所有对话

标签：

热门焦点

文心一言排名垫底，却成为百度业绩增长杠杆

文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后，百度公司热度大幅提升，文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日，百度（NASDAQ：BIDU/09888.HK）公布了
如何对一款 NFT 项目进行价值评估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家，因为我相信我们正在见证社会
量子计算在未来能否提高区块链技术的效率

区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

一些艺术家通过将他们的创作作为NFT出售而获得了巨大收益。令人惊讶的是，许多赚取了数百万美元的艺术家们仍在读高中。这可能有点让人难以置信。然而，请记住，在短
Meta 呼吁行业合作建立元宇宙网络基础设施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基础设施，以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一，这在很大程度上是由 Facebo
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装
虚拟邓丽君后，数字人赛道开启3.0时代

“如果右脑时代来临，虚拟世界将是对人类才华的无限放大。” 郭晓喆称，开发数字人形象时，自己的团队在内部“卷”了一下：“当我们翻阅大量历史典籍的时候，苏小妹找到
电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

元宇宙听起来像不像是科幻小说中出现的术语？事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙，它能够模
虚拟人行业研究报告

最早的虚拟人出现于 20 世纪 80 年代，受限于技术，当时的虚拟人制作以手绘为主。21 世纪初，随着动捕、渲染等技术的逐步发展，虚拟人相关技术开始在影视领域逐渐普及

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

DeepSeek R1 遇难题 142 次 "I give up "，研究还称需增加推理时机控制机制

文心一言排名垫底，却成为百度业绩增长杠杆

如何对一款 NFT 项目进行价值评估？

量子计算在未来能否提高区块链技术的效率

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

Meta 呼吁行业合作建立元宇宙网络基础设施

元宇宙收割了谁

虚拟邓丽君后，数字人赛道开启3.0时代

电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

虚拟人行业研究报告

最新推荐

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

元宇宙“概念股”集体崩塌，背后究竟发生了什么？

融资千万美元的元宇宙平台UGC到底是什么？

虚拟邓丽君后，数字人赛道开启3.0时代

元宇宙不完全是想出来的，而是实打实做出来的

虚拟偶像行业的商用价值逐渐凸显，IP生态圈也逐渐成型

猜你喜欢

热门推荐

相关资讯