当前位置:首页 > 科技  > 网络

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

来源: 责编: 时间:2025-05-20 10:04:03 152观看
导读 拷打AI的难度还在升级?这不,图像推理又出现了新难题。该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整

拷打AI的难度还在升级?这不,图像推理又出现了新难题。oBo28资讯网——每日最新资讯28at.com

该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。oBo28资讯网——每日最新资讯28at.com

其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

而国内大模型,如DeepSeek、Qwen3的答案分别为14和9。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

出现这些不同答案的原因是什么呢?请往下看。oBo28资讯网——每日最新资讯28at.com

为什么会出现不同的答案oBo28资讯网——每日最新资讯28at.com

核心原因:大模型对组成的大立方体的规格理解不同。oBo28资讯网——每日最新资讯28at.com

o3将终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。oBo28资讯网——每日最新资讯28at.com

而AI的错误源于它对图片中小立方体的结构和数目的分析错误。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

Gemini 2.5 Pro将终组成的大立方体的规格理解为4x4x4。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

而DeepSeek和Qwen都将终的大立方体规格设定为了3x3x3。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

对于终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。oBo28资讯网——每日最新资讯28at.com

不过,结合提示多次尝试,也有大模型能够渐渐找准方向。oBo28资讯网——每日最新资讯28at.com

网友针对这些错误答案提供了一些解决办法:oBo28资讯网——每日最新资讯28at.com

例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。oBo28资讯网——每日最新资讯28at.com

因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。oBo28资讯网——每日最新资讯28at.com

网友:人类也会困惑oBo28资讯网——每日最新资讯28at.com

有人说,这根本就不是一个推理问题,而是一个视觉理解问题。oBo28资讯网——每日最新资讯28at.com

出现作者认为的错误答案是由于问题表述不清楚导致AI的分析过程出现了偏差。oBo28资讯网——每日最新资讯28at.com

甚至人类面对这种问题也会出现类似的困惑,比如题目的要求到底是以原来的排列结构为基础还是可以打乱结构重新排列?oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

并且,如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

那么o3得到的答案也是正确的:oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

无论是3x3x3、4x4x4还是5x5x5,或者是NxNxN,人类自己都无法统一答案的问题,对AI来说是不是太难了点!oBo28资讯网——每日最新资讯28at.com

网友:oBo28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊oBo28资讯网——每日最新资讯28at.com

AI:或许我需要一个更科学的训练方式!oBo28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-151740-0.htmlAI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 黄仁勋重磅演讲:Q3推出下一代GB300 将向合作者授权NVLink技术

下一篇: 中国AI大厂 被Deepseek掀了牌桌之后

标签:
  • 热门焦点
  • 7月安卓手机性价比榜:努比亚+红魔两款新机入榜

    7月登场的新机有努比亚Z50S Pro和红魔8S Pro,除了三星之外目前唯二的两款搭载超频版骁龙8Gen2处理器的产品,而且努比亚和红魔也一贯有着不错的性价比,所以在本次的性价比榜单
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • 5月iOS设备好评榜:iPhone 14仅排第43?

    来到新的一月,安兔兔的各个榜单又重新汇总了数据,像安卓阵营的榜单都有着比较大的变动,不过iOS由于设备的更新换代并没有那么快,所以相对来说变化并不大,特别是iOS好评榜,老款设
  • 学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 重估百度丨大模型,能撑起百度的“今天”吗?

    自象限原创 作者|程心 罗辑2023年之前,对于自己的“今天”,百度也很迷茫。“新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”这是2022年底,李彦宏
  • iQOO Neo8系列或定档5月23日:首发天玑9200+ 安卓跑分王者

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
Top