当前位置：首页 > 元宇宙 > AI

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

来源：责编：时间：2025-08-14 10:20:17 147观看

导读别急着用 GPT-5 编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的 SWE-bench Verified，但货不对板，只用了 477 个问题。什么意思呢？我们知道，SWE-bench 是评估模型 / 智能体自主编程能力的一个

别急着用 GPT-5 编程了，可能它能力没有你想象中那么强。

有人发现，官方测试编程能力用的 SWE-bench Verified，但货不对板，只用了 477 个问题。

什么意思呢？我们知道，SWE-bench 是评估模型 / 智能体自主编程能力的一个通用且常用的指标。而 SWE-bench Verified 作为它的子集，本来一共有 500 个问题。

现在相当于 OpenAI 自行省略的那 23 个问题，自己搞了个子集的“子集”来评估模型能力。

而如果这些题默认零分，那么得分实际上是比 Claude Opus 4.1 还要低的。因为现在仅有 0.4% 的差距。

OpenAI 这种自行忽略 23 道题的操作，已经不是第一次了。

早在 GPT-4.1 发布时就信誓旦旦地说，之所以忽略是因为这些问题的解决方案无法在他们的基础设施运行。

离谱了朋友们！要知道 SWE-bench Verified 这个 OpenAI 自己提的，理由也是因为 SWE-bench 无法系统评估模型的编程能力，所以决定自己再提炼一个子集。

现在又因为测试题无法正常运行，所以自行又搞了个子集的“子集”。

本来以为 GPT-5 直播里出现图表错误已经够离谱了，结果现在告诉我这里面的成绩可能还有假？

OpenAI 一直省略 23 个问题

已经开始有网友发现，GPT-5 能力并不比 Claude 4.1 Opus 好多少。

现在来看，这个官方给的结果或许根本没有参考价值。

网友们除了自行忽略部分测试题，“伪造了结果”这一发现外，还发现，他们是将具有最大思维努力的 GPT-5 与没有扩展思维仅靠原始模型输出的 Opus 4.1 进行比较。这种比较实际上没有参考意义。

而他们之所以只使用 477 个问题来测试，理由也跟 GPT-4.1 发布时一样，因为他们内部的基础设施运行不了剩下的 23 个问题。

今年 4 月份发布 GPT-4.1 时，在同一基准仅使用 477 个问题下得得分在 54.6%。

当时官方还指出，如果保守地将这些问题的得分定为 0，那么 54.6% 的得分就变成了 52.1%。即便是这样，这个数值放在当时也是最高的。

而 Anthropic 这边，其实也已经发现了 OpenAI 这个操作。

就在 Claude Opus 4.1 发布公布编程成绩之时，在文章的末尾有这么一句话。

对于 Claude 4 系列模型，他们继续使用相同的简单框架，该框架仅为模型配备了两种工具 —— 一个 Bash 工具和一个通过字符串替换进行文件编辑的工具，并且不再包含 Claude 3.7 Sonnet 中使用的第三个“规划工具”。

并在最后注明：在所有 Claude 4 模型中，他们报告的分数基于完整的 500 个问题。OpenAI 模型的得分基于 477 道问题的子集进行报告。

基准还是 OpenAI 自己提的

如果说，SWE-bench Verified 还是 OpenAI 自己提的基准，那这件事就更离谱了。

这不就相当于自己搬起石头砸自己的脚啦嘛。

当时啊还是因为类似的原因 —— 他们测试发现 SWE-bench 的一些任务可能难以解决甚至无法解决，导致 SWE-bench 无法系统性评估模型的自主编程能力。

于是乎，他们决定与 SWE-bench 的作者合作，决定弄出个新版本，希望能够提供更准确的评估。

他们共同发起了一项人工注释活动，共有 93 位资深程序员参与进来，以筛选 SWE-bench 测试集每个样本，从而获得适当范围的单元测试和明确指定的问题描述。

他们随机抽取了 1699 个样本，然后基于统一标准来进行标注。

比如，问题描述是否明确？每个注释都有一个标签，范围从 [0, 1, 2, 3]，严重程度依次递增。

标签 0 和 1 表示轻微；标签 2 和 3 表示严重，表示样本在某些方面存在缺陷，应予以丢弃。

此外，我们还会评估每个示例的难度，方法是让注释者估算开发人员确定并实现解决方案所需的时间。

最终得到了 500 个经过验证的样本，并且按照难度对数据集进行细分。“简单”子集包含 196 个小于 15 分钟的修复任务，而“困难”子集包含 45 个大于 1 小时的任务。

结果现在这个子集又被 OpenAI 缩减了。

One More Thing

不过，还是有个总榜单或许值得参考，就是那个最原始的 SWE-bench。

在这个榜单中，Claude 4 Opus 还是占据着领先位置。

GPT-5 也已经发过好一阵了，不知道你有没有这样类似的编程体验呀？欢迎在评论区与我们分享。

参考链接：

[1]https://www.swebench.com/

[2]https://openai.com/index/introducing-gpt-5/

[3]https://www.anthropic.com/news/claude-opus-4-1

[4]https://x.com/SemiAnalysis_/status/1955028150217478177

[5]https://x.com/DavidOndrej1/status/1954158161721487482

本文来自微信公众号：量子位（ID：QbitAI），作者：白交，原标题《GPT-5 编程成绩有猫腻！自删 23 道测试题，关键基准还是自己提的》

本文链接：http://www.28at.com/showinfo-45-26086-0.htmlOpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：英特尔升级多显卡 AI 推理，Battlematrix 整体性能最高提升 80%

下一篇：超 98% 参赛者：OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌

标签：

热门焦点

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

来源：清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗？那时的Sam Altman可谓意气风发，在耐心、友好的国会议员面前，就AI立法、大模型安全性问题侃侃而
元宇宙的文旅赛道，还能如何发力？

来源：X增强现实苹果推出Vision Pro，为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作，其Disney+流媒体服务将于Vision Pro
“平均时代”：ChatGPT模仿秀的隐喻

来源：锦缎如果你问ChatGPT，Instagram上最美的女人是谁？它很可能会给你一个名字，叫卡戴珊。如果你观察过Instagram这个美版小红书：平台上的所有网红，展现的几乎是统一面孔：统一的医
花房集团上市，走向元宇宙新征程

文 | 港股研究社作者 | 熊生12月12日，花房集团在港交所成功上市，首日便受到追捧，当日最高涨幅达28.75%。继360、360数科、鲁大师后，这是“红衣教主”周
【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

元宇宙的表现形式大多以游戏为起点，并逐渐整合互联网、数字化娱乐、社交网络等功能，长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
超跑与NFT的首次结合，兰博基尼能否破局？

兰博基尼公司近日称即将推出它的首款NFT，并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车，并宣布将拍卖与瑞士
全面拥抱“虚拟世界”，摩登天空要打造“音乐元宇宙”

作者：袁佳琦沈黎晖不怎么打游戏，但许多事儿在他眼里都“有意思”。好玩，有意思，是他的口头禅，在接受娱乐独角兽的采访过程中，他多次提到，做虚拟音乐人，“是件挺好玩的
NFT世界的艺术家名单

我们汇编了以下艺术家的名单，它包括每个艺术家的简短概述。当然，这份名单肯定不全面，还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

近日，毕马威正式发布其《初探元宇宙》报告，这也是毕马威在元宇宙领域发布的首份报告。报告指出，元宇宙在以下十个领域的应用场景尤其值得期待，包括娱乐、社交、零

猜你喜欢

SQL Error: select * from ***_ecms_news13 where id in(174,,153,20,135,204) limit 6

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

元宇宙的文旅赛道，还能如何发力？

“平均时代”：ChatGPT模仿秀的隐喻

花房集团上市，走向元宇宙新征程

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

超跑与NFT的首次结合，兰博基尼能否破局？

全面拥抱“虚拟世界”，摩登天空要打造“音乐元宇宙”

NFT世界的艺术家名单

元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

最新推荐

新周期，谁在坚守窄门？

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

元宇宙步入暗夜

从NFT顶级公链到Web3.0基础设施：带你了解不一样的Flow

这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

你连元宇宙都不知道吗？快来看看这四本元宇宙书籍吧

猜你喜欢

热门推荐

相关资讯