当前位置:首页 > 元宇宙 > AI

苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错

来源: 责编: 时间:2024-10-14 16:21:52 162观看
导读 10 月 12 日消息,近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决

10 月 12 日消息,近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。Fzl28资讯网——每日最新资讯28at.com

Fzl28资讯网——每日最新资讯28at.com

图源 Pexels

周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。Fzl28资讯网——每日最新资讯28at.com

例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”Fzl28资讯网——每日最新资讯28at.com

上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。Fzl28资讯网——每日最新资讯28at.com

研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。Fzl28资讯网——每日最新资讯28at.com

这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。Fzl28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9084-0.html苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 字节跳动与清华大学 AIR 成立联合研究中心,推动大模型产学研合作

下一篇: 李开复:零一万物没有放弃预训练模型,新模型也即将推出

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 时尚领域进军元宇宙,2022年会带来哪些颠覆性的全新体验?

    想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱(Crypto)、房屋(可能建在Minecraft上)和衣物。随着
  • Niantic与索尼在音频AR领域达成合作;​苹果为Apple Park申请形象化商标

    今日热点:迪士尼任命新高管负责元宇宙业务;iFixit成为Valve Index VR头显和Steam Deck首家零件销售商;Niantic与索尼达成合作,将为AR游戏《Ingress》带来音频体验;V
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 传统互联网与区块链场景下数据权利法律分析

    数据权益的复杂性在于数据涉及多环节多主体、内容不同质且与不同场景紧密联系、对软硬件技术环节紧密相关等方面的复杂性。在传统互联网与区块链模式下,数据处
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
Top