当前位置:首页 > 科技  > 网络

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

来源: 责编: 时间:2025-05-20 10:04:03 162观看
导读 拷打AI的难度还在升级?这不,图像推理又出现了新难题。该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整

拷打AI的难度还在升级?这不,图像推理又出现了新难题。fZG28资讯网——每日最新资讯28at.com

该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。fZG28资讯网——每日最新资讯28at.com

其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

而国内大模型,如DeepSeek、Qwen3的答案分别为14和9。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

出现这些不同答案的原因是什么呢?请往下看。fZG28资讯网——每日最新资讯28at.com

为什么会出现不同的答案fZG28资讯网——每日最新资讯28at.com

核心原因:大模型对组成的大立方体的规格理解不同。fZG28资讯网——每日最新资讯28at.com

o3将终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。fZG28资讯网——每日最新资讯28at.com

而AI的错误源于它对图片中小立方体的结构和数目的分析错误。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

Gemini 2.5 Pro将终组成的大立方体的规格理解为4x4x4。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

而DeepSeek和Qwen都将终的大立方体规格设定为了3x3x3。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

对于终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。fZG28资讯网——每日最新资讯28at.com

不过,结合提示多次尝试,也有大模型能够渐渐找准方向。fZG28资讯网——每日最新资讯28at.com

网友针对这些错误答案提供了一些解决办法:fZG28资讯网——每日最新资讯28at.com

例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。fZG28资讯网——每日最新资讯28at.com

因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。fZG28资讯网——每日最新资讯28at.com

网友:人类也会困惑fZG28资讯网——每日最新资讯28at.com

有人说,这根本就不是一个推理问题,而是一个视觉理解问题。fZG28资讯网——每日最新资讯28at.com

出现作者认为的错误答案是由于问题表述不清楚导致AI的分析过程出现了偏差。fZG28资讯网——每日最新资讯28at.com

甚至人类面对这种问题也会出现类似的困惑,比如题目的要求到底是以原来的排列结构为基础还是可以打乱结构重新排列?fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

并且,如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

那么o3得到的答案也是正确的:fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

无论是3x3x3、4x4x4还是5x5x5,或者是NxNxN,人类自己都无法统一答案的问题,对AI来说是不是太难了点!fZG28资讯网——每日最新资讯28at.com

网友:fZG28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊fZG28资讯网——每日最新资讯28at.com

AI:或许我需要一个更科学的训练方式!fZG28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-151740-0.htmlAI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 黄仁勋重磅演讲:Q3推出下一代GB300 将向合作者授权NVLink技术

下一篇: 中国AI大厂 被Deepseek掀了牌桌之后

标签:
  • 热门焦点
  • 6月iOS设备性能榜:M2稳居榜首 A系列只能等一手3nm来救

    没有新品发布,自然iOS设备性能榜的上榜设备就没有什么更替,仅仅只有跑分变化而产生的排名变动,毕竟苹果新品的发布节奏就是这样的,一年下来也就几个移动端新品,不会像安卓厂商,一
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 19个 JavaScript 单行代码技巧,让你看起来像个专业人士

    今天这篇文章跟大家分享18个JS单行代码,你只需花几分钟时间,即可帮助您了解一些您可能不知道的 JS 知识,如果您已经知道了,就当作复习一下,古人云,温故而知新嘛。现在,我们就开始今
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 一条抖音4亿人围观 ! 这家MCN比无忧传媒还野

    作者:Hiu 来源:互联网品牌官01 擦边少女空降热搜,幕后推手曝光被网友誉为“纯欲天花板”的女网红井川里予,近期因为一组哥特风照片登上热搜,引发了一场互联网世界关于
  • 支持aptX Lossless无损传输 iQOO TWS 1赛道版发布限时优惠价369元

    2023年7月4日,“无损音质,声动人心”iQOO TWS 1正式发布,支持aptX Lossless无损传输,限时优惠价369元。iQOO TWS 1耳机率先支持端到端aptX Lossless无
  • OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    日前OPPO官方宣布,全新的OPPO K11将于7月25日正式发布,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位影像表
Top