当前位置:首页 > 元宇宙 > AI

OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的

来源: 责编: 时间:2025-08-14 10:20:17 67观看
导读 别急着用 GPT-5 编程了,可能它能力没有你想象中那么强。有人发现,官方测试编程能力用的 SWE-bench Verified,但货不对板,只用了 477 个问题。什么意思呢?我们知道,SWE-bench 是评估模型 / 智能体自主编程能力的一个

别急着用 GPT-5 编程了,可能它能力没有你想象中那么强。HnW28资讯网——每日最新资讯28at.com

有人发现,官方测试编程能力用的 SWE-bench Verified,但货不对板,只用了 477 个问题。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

什么意思呢?我们知道,SWE-bench 是评估模型 / 智能体自主编程能力的一个通用且常用的指标。而 SWE-bench Verified 作为它的子集,本来一共有 500 个问题。HnW28资讯网——每日最新资讯28at.com

现在相当于 OpenAI 自行省略的那 23 个问题,自己搞了个子集的“子集”来评估模型能力。HnW28资讯网——每日最新资讯28at.com

而如果这些题默认零分,那么得分实际上是比 Claude Opus 4.1 还要低的。因为现在仅有 0.4% 的差距。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

OpenAI 这种自行忽略 23 道题的操作,已经不是第一次了。HnW28资讯网——每日最新资讯28at.com

早在 GPT-4.1 发布时就信誓旦旦地说,之所以忽略是因为这些问题的解决方案无法在他们的基础设施运行。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

离谱了朋友们!要知道 SWE-bench Verified 这个 OpenAI 自己提的,理由也是因为 SWE-bench 无法系统评估模型的编程能力,所以决定自己再提炼一个子集。HnW28资讯网——每日最新资讯28at.com

现在又因为测试题无法正常运行,所以自行又搞了个子集的“子集”。HnW28资讯网——每日最新资讯28at.com

本来以为 GPT-5 直播里出现图表错误已经够离谱了,结果现在告诉我这里面的成绩可能还有假?HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

OpenAI 一直省略 23 个问题

已经开始有网友发现,GPT-5 能力并不比 Claude 4.1 Opus 好多少。HnW28资讯网——每日最新资讯28at.com

现在来看,这个官方给的结果或许根本没有参考价值。HnW28资讯网——每日最新资讯28at.com

网友们除了自行忽略部分测试题,“伪造了结果”这一发现外,还发现,他们是将具有最大思维努力的 GPT-5 与没有扩展思维仅靠原始模型输出的 Opus 4.1 进行比较。这种比较实际上没有参考意义。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

而他们之所以只使用 477 个问题来测试,理由也跟 GPT-4.1 发布时一样,因为他们内部的基础设施运行不了剩下的 23 个问题。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

今年 4 月份发布 GPT-4.1 时,在同一基准仅使用 477 个问题下得得分在 54.6%。HnW28资讯网——每日最新资讯28at.com

当时官方还指出,如果保守地将这些问题的得分定为 0,那么 54.6% 的得分就变成了 52.1%。即便是这样,这个数值放在当时也是最高的。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

而 Anthropic 这边,其实也已经发现了 OpenAI 这个操作。HnW28资讯网——每日最新资讯28at.com

就在 Claude Opus 4.1 发布公布编程成绩之时,在文章的末尾有这么一句话。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

对于 Claude 4 系列模型,他们继续使用相同的简单框架,该框架仅为模型配备了两种工具 —— 一个 Bash 工具和一个通过字符串替换进行文件编辑的工具,并且不再包含 Claude 3.7 Sonnet 中使用的第三个“规划工具”。HnW28资讯网——每日最新资讯28at.com

并在最后注明:在所有 Claude 4 模型中,他们报告的分数基于完整的 500 个问题。OpenAI 模型的得分基于 477 道问题的子集进行报告。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

基准还是 OpenAI 自己提的

如果说,SWE-bench Verified 还是 OpenAI 自己提的基准,那这件事就更离谱了。HnW28资讯网——每日最新资讯28at.com

这不就相当于自己搬起石头砸自己的脚啦嘛。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

当时啊还是因为类似的原因 —— 他们测试发现 SWE-bench 的一些任务可能难以解决甚至无法解决,导致 SWE-bench 无法系统性评估模型的自主编程能力。HnW28资讯网——每日最新资讯28at.com

于是乎,他们决定与 SWE-bench 的作者合作,决定弄出个新版本,希望能够提供更准确的评估。HnW28资讯网——每日最新资讯28at.com

他们共同发起了一项人工注释活动,共有 93 位资深程序员参与进来,以筛选 SWE-bench 测试集每个样本,从而获得适当范围的单元测试和明确指定的问题描述。HnW28资讯网——每日最新资讯28at.com

他们随机抽取了 1699 个样本,然后基于统一标准来进行标注。HnW28资讯网——每日最新资讯28at.com

比如,问题描述是否明确?每个注释都有一个标签,范围从 [0, 1, 2, 3],严重程度依次递增。HnW28资讯网——每日最新资讯28at.com

标签 0 和 1 表示轻微;标签 2 和 3 表示严重,表示样本在某些方面存在缺陷,应予以丢弃。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

此外,我们还会评估每个示例的难度,方法是让注释者估算开发人员确定并实现解决方案所需的时间。HnW28资讯网——每日最新资讯28at.com

最终得到了 500 个经过验证的样本,并且按照难度对数据集进行细分。“简单”子集包含 196 个小于 15 分钟的修复任务,而“困难”子集包含 45 个大于 1 小时的任务。HnW28资讯网——每日最新资讯28at.com

结果现在这个子集又被 OpenAI 缩减了。HnW28资讯网——每日最新资讯28at.com

One More Thing

不过,还是有个总榜单或许值得参考,就是那个最原始的 SWE-bench。HnW28资讯网——每日最新资讯28at.com

在这个榜单中,Claude 4 Opus 还是占据着领先位置。HnW28资讯网——每日最新资讯28at.com

HnW28资讯网——每日最新资讯28at.com

GPT-5 也已经发过好一阵了,不知道你有没有这样类似的编程体验呀?欢迎在评论区与我们分享。HnW28资讯网——每日最新资讯28at.com

参考链接:HnW28资讯网——每日最新资讯28at.com

[1]https://www.swebench.com/HnW28资讯网——每日最新资讯28at.com

[2]https://openai.com/index/introducing-gpt-5/HnW28资讯网——每日最新资讯28at.com

[3]https://www.anthropic.com/news/claude-opus-4-1HnW28资讯网——每日最新资讯28at.com

[4]https://x.com/SemiAnalysis_/status/1955028150217478177HnW28资讯网——每日最新资讯28at.com

[5]https://x.com/DavidOndrej1/status/1954158161721487482HnW28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:白交,原标题《GPT-5 编程成绩有猫腻!自删 23 道测试题,关键基准还是自己提的》HnW28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-26086-0.htmlOpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 英特尔升级多显卡 AI 推理,Battlematrix 整体性能最高提升 80%

下一篇: 超 98% 参赛者:OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 银保监会:打击以“元宇宙”为名义的违法行为

    今日,银保监会发布《关于防范以“元宇宙”名义进行非法集资的风险提示》,全文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名目吸收资金,涉
  • 全面拥抱“虚拟世界”,摩登天空要打造“音乐元宇宙”

    作者:袁佳琦沈黎晖不怎么打游戏,但许多事儿在他眼里都“有意思”。好玩,有意思,是他的口头禅,在接受娱乐独角兽的采访过程中,他多次提到,做虚拟音乐人,“是件挺好玩的
  • 借VR产业东风,江西抢滩布局“元宇宙”

    自2016年起就在VR上倾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技术是通往元宇宙的关键接口,使人们可以在数字空间和物理空间自由穿梭。自2016年起
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 盘点9个主流元宇宙平台,你都知道哪些?

    随着NFT的持续升温,它也加入了现在的元宇宙浪潮。本文介绍元宇宙的基本概念以及 九个最流行的元宇宙NFT平台,如Decentraland、sandbox等。用熟悉的语言学习 以太
Top