当前位置:首页 > 科技  > 软件

苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

来源: 责编: 时间:2025-06-09 09:36:28 207观看
导读 6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。苹果研究人员对现有的前沿

6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。WA728资讯网——每日最新资讯28at.com

WA728资讯网——每日最新资讯28at.com

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。WA728资讯网——每日最新资讯28at.com

研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。WA728资讯网——每日最新资讯28at.com

此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。WA728资讯网——每日最新资讯28at.com

WA728资讯网——每日最新资讯28at.com

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。WA728资讯网——每日最新资讯28at.com

研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。WA728资讯网——每日最新资讯28at.com

研究团队提出,模型表现可分为三个阶段:WA728资讯网——每日最新资讯28at.com

低复杂度任务:传统大模型(IT酷哥注:如 Claude-3.7 无思维版本)表现更佳;WA728资讯网——每日最新资讯28at.com

中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势;WA728资讯网——每日最新资讯28at.com

高复杂度任务:两类模型均陷入完全失效状态。WA728资讯网——每日最新资讯28at.com

特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。WA728资讯网——每日最新资讯28at.com

总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。WA728资讯网——每日最新资讯28at.com

研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”WA728资讯网——每日最新资讯28at.com

参考资料:WA728资讯网——每日最新资讯28at.com

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》WA728资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-157707-0.html苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 《侏罗纪世界:重生》发布正片片段:中国内地定档 7 月 2 日,斯嘉丽・约翰逊主演

下一篇: 我国渤海最大油气平台完成海上浮托安装,预计年内投入生产

标签:
  • 热门焦点
  • 5月iOS设备性能榜:M1 M2依旧是榜单前五

    和上个月一样,没有新品发布的iOS设备性能榜的上榜设备并没有什么更替,仅仅只有跑分变化而产生的排名变动,刚刚开始的苹果WWDC2023,推出的产品也依旧是新款Mac Pro、新款Mac Stu
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 帅气纯真少年!日本最帅初中生选美冠军出炉

    日本第一帅哥初一生选美大赛冠军现已正式出炉,冠军是来自千叶县的宗田悠良。日本一直热衷于各种选美大赛,从“最美JK”起到“最美女星&r
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • 从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • iQOO Neo8 Pro即将开售:到手价3099元起 安卓性能最强旗舰

    5月23日,iQOO如期举行了新品发布会,全新的iQOO Neo8系列也正式与大家见面,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更
  • 2021中国国际消费电子博览会与青岛国际软件融合创新博览会新闻发布会隆重举行

    9月18日,2021中国国际消费电子博览会与青岛国际软件融合创新博览会新闻发布会在青岛国际新闻中心隆重举行。发布会上青岛市政府领导联袂出席,对本次双展会情
Top