当前位置:首页 > 科技  > 网络

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

来源: 责编: 时间:2025-05-20 10:04:03 207观看
导读 拷打AI的难度还在升级?这不,图像推理又出现了新难题。该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整

拷打AI的难度还在升级?这不,图像推理又出现了新难题。Se628资讯网——每日最新资讯28at.com

该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。Se628资讯网——每日最新资讯28at.com

其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

而国内大模型,如DeepSeek、Qwen3的答案分别为14和9。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

出现这些不同答案的原因是什么呢?请往下看。Se628资讯网——每日最新资讯28at.com

为什么会出现不同的答案Se628资讯网——每日最新资讯28at.com

核心原因:大模型对组成的大立方体的规格理解不同。Se628资讯网——每日最新资讯28at.com

o3将终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。Se628资讯网——每日最新资讯28at.com

而AI的错误源于它对图片中小立方体的结构和数目的分析错误。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

Gemini 2.5 Pro将终组成的大立方体的规格理解为4x4x4。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

而DeepSeek和Qwen都将终的大立方体规格设定为了3x3x3。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

对于终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。Se628资讯网——每日最新资讯28at.com

不过,结合提示多次尝试,也有大模型能够渐渐找准方向。Se628资讯网——每日最新资讯28at.com

网友针对这些错误答案提供了一些解决办法:Se628资讯网——每日最新资讯28at.com

例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。Se628资讯网——每日最新资讯28at.com

因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。Se628资讯网——每日最新资讯28at.com

网友:人类也会困惑Se628资讯网——每日最新资讯28at.com

有人说,这根本就不是一个推理问题,而是一个视觉理解问题。Se628资讯网——每日最新资讯28at.com

出现作者认为的错误答案是由于问题表述不清楚导致AI的分析过程出现了偏差。Se628资讯网——每日最新资讯28at.com

甚至人类面对这种问题也会出现类似的困惑,比如题目的要求到底是以原来的排列结构为基础还是可以打乱结构重新排列?Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

并且,如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

那么o3得到的答案也是正确的:Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

无论是3x3x3、4x4x4还是5x5x5,或者是NxNxN,人类自己都无法统一答案的问题,对AI来说是不是太难了点!Se628资讯网——每日最新资讯28at.com

网友:Se628资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊Se628资讯网——每日最新资讯28at.com

AI:或许我需要一个更科学的训练方式!Se628资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-151740-0.htmlAI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 黄仁勋重磅演讲:Q3推出下一代GB300 将向合作者授权NVLink技术

下一篇: 中国AI大厂 被Deepseek掀了牌桌之后

标签:
  • 热门焦点
  • 一加首款折叠屏!一加Open渲染图出炉:罕见单手可握小尺寸

    8月5日消息,此前就有爆料称,一加首款折叠屏手机将会在第三季度上市,如今随着时间临近,新机的各种消息也开始浮出水面。据悉,这款新机将会被命名为“On
  • 线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • 摸鱼心法第一章——和配置文件说拜拜

    为了能摸鱼我们团队做了容器化,但是带来的问题是服务配置文件很麻烦,然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比,简单对比下独立配置中心和k8s作为配
  • CSS单标签实现转转logo

    转转品牌升级后更新了全新的Logo,今天我们用纯CSS来实现转转的新Logo,为了有一定的挑战性,这里我们只使用一个标签实现,将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
  • SpringBoot中使用Cache提升接口性能详解

    环境:springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架从 3.1 开始,对 Spring 应用程序提供了透明式添加缓存的支持。和事务支持一样,抽象缓存允许一致地使用各
  • 如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 四年持续更迭坚持探索行业无人之境,HarmonyOS 4带来五大升级多项创新

    除了华为每年新发布的旗舰手机系列,上亿花粉更加期待鸿蒙系统每次的跨版本大更新。8月4日,HarmonyOS 4于HDC 2023正式发布,这也是该系统历经四年的再
  • 华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术

    华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性
  • 回归OPPO两年,一加赢了销量,输了品牌

    成为OPPO旗下主打性能的先锋品牌后,一加屡创佳绩。今年618期间,一加手机全渠道销量同比增长362%,凭借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加
Top