当前位置:首页 > 元宇宙 > AI

大模型测试题爆火,GPT-4 和 Claude3 都跪了,LeCun 转发:新 Benchmark

来源: 责编: 时间:2024-06-27 07:50:46 82观看
导读 一项新的“大模型 Benchmark”在推特上爆火,LeCun 也点赞转发了!而且无论是 GPT-4 还是 Claude 3,面对它都如同被夺了魂,无法给出正确答案。难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型

一项新的“大模型 Benchmark”在推特上爆火,LeCun 也点赞转发了!2uj28资讯网——每日最新资讯28at.com

而且无论是 GPT-4 还是 Claude 3,面对它都如同被夺了魂,无法给出正确答案。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。2uj28资讯网——每日最新资讯28at.com

甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让 LeCun 打趣说到,一项新的“Benchmark”诞生了。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

“模见模愁”的动物过河

首先来看一下什么是“动物过河”问题,这是逻辑学当中的一道经典题目。2uj28资讯网——每日最新资讯28at.com

问题的原型是这样的:2uj28资讯网——每日最新资讯28at.com

农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

在这个问题当中,农夫需要七次(往返视为两次)过河 —— 先把羊运过去,然后空船返回,再把狼运过河,带回羊,然后运送白菜,再空船返回,最后运送羊。2uj28资讯网——每日最新资讯28at.com

而劣效比率的定义,就是模型给出的运送次数与实际最少所需次数的比值。2uj28资讯网——每日最新资讯28at.com

当然在测试中,网友使用的问题经过了改编,结果发现,当题目变成一共有两只鸡,一次可以运两只的时候,GPT-4 依然在一本正经地胡乱分析,最后信誓旦旦地回答是五次。2uj28资讯网——每日最新资讯28at.com

所以在这种情境下,“劣效比率”就是 5。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

Claude 这边的情况要更离谱一些,明明只有一只羊要送,它却硬生生说要运三次。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

还有网友发现了华点,把题面改成从东岸运到东岸,也就是根本不需要运送,模型不以为然,依旧我行我素地筹划着运送方案。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

这下只要模型没识破陷阱,随便说一个数“劣效比率”都会直接变成无穷大。2uj28资讯网——每日最新资讯28at.com

哪怕问得更直白一些,直接说不需要过河,模型依然会直接开算。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

所以,这个“劣效比率”更多像是一种玩笑,不太能比较出各模型的能力,或者说离谱程度。2uj28资讯网——每日最新资讯28at.com

有网友分析,这种现象可能并不意味着大模型推理能力的缺乏,实际上它揭示了训练数据对大模型输出的影响。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

但另一方面,无论问题是否出自推理本身,至少说明了当前的大模型还不是优质的推理工具。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

那么,这究竟是个别现象,还是模型的通病?我们选择了更多的模型进行了测试。2uj28资讯网——每日最新资讯28at.com

12 款模型全军覆没

针对这个“Benchmark”,也如法炮制,测了测国产大模型的表现,参赛的选手有文心一言、通义千问等 12 款大模型。2uj28资讯网——每日最新资讯28at.com

测试的过程和网友展示的方法相似,Prompt 中只描述问题,不添加额外的提示词。2uj28资讯网——每日最新资讯28at.com

对每个大模型,我们都准备了下面这三道题目:2uj28资讯网——每日最新资讯28at.com

首先进行一下说明:2uj28资讯网——每日最新资讯28at.com

1、农夫不被计入运送物品的数量限制2uj28资讯网——每日最新资讯28at.com

2、题目中“独处”的标准是,只要有人或其他物品在场,就不属于独处2uj28资讯网——每日最新资讯28at.com

3、往返过程视为两次过河2uj28资讯网——每日最新资讯28at.com

以上几点在 Prompt 中均有指出。2uj28资讯网——每日最新资讯28at.com

问题一(正常提问):2uj28资讯网——每日最新资讯28at.com

一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带两件,且狼和羊 / 狐狸和鸡 / 鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?2uj28资讯网——每日最新资讯28at.com

(答案:五次,只要第一次运到对岸的两个物品可以独处即可。)2uj28资讯网——每日最新资讯28at.com

问题二(一步到位):2uj28资讯网——每日最新资讯28at.com

一个农夫需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带五件,且狼和羊 / 狐狸和鸡 / 鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?2uj28资讯网——每日最新资讯28at.com

问题三(陷阱问题):2uj28资讯网——每日最新资讯28at.com

一个农夫不需要将狼、羊、狐狸、鸡和米五种物品运送过河,每次只能带两件,且狼和羊 / 狐狸和鸡 / 鸡和米不能单独相处,每次运送时农夫必须在船上,最少需要过河几次?2uj28资讯网——每日最新资讯28at.com

结果可以说是全军覆没,首先用一张表格来整体看下各大模型的表现。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

第一个问题,各有各的错法,相同的错误类型,这里每种只列举一个例子。2uj28资讯网——每日最新资讯28at.com

比如文心一言,前面说得没什么问题,但最后把狐狸带回原来的岸边后忘了再带过去,最终没有完成任务:2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

还有讯飞星火这种运着运着,某样东西自动就跑到了对岸的情况:2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

以上的两种错误比较典型,当然,还有最有意思的错误来自跃问 ——2uj28资讯网——每日最新资讯28at.com

因为狼和羊不能“独处”,所以它们需要在一起。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

这波属实是把人给整不会了,不过整场测试中,除了这个把“独处”理解错的情况之外,倒是都没有出现让不能独处的动物单独在一起的现象。2uj28资讯网——每日最新资讯28at.com

当然也有表现好一些的,比如腾讯元宝的方案已经接近可行,只是最后两步纯属多余,而且实际上此时已经无物可运。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

表现最好的是通义千问,给出的方案虽然麻烦,但是找不出什么错误。2uj28资讯网——每日最新资讯28at.com

值得注意的是,很多模型给出的方案都会把羊运送过去,然后运一只鸡再把羊运回来,不知道为什么不直接运鸡。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

另外值得一提的是,我们在 Prompt 中虽未提及,但基本上接受测试的模型都不约而同地运用到了思维链方式,一方面说明了模型确实会使用推理技巧,但另一方面也说明思维链的作用是有限的。2uj28资讯网——每日最新资讯28at.com

而至于后面两个问题,错法就比较统一了 —— 根本没关注到数量限制的变化,更没看到“不需要”里的“不”,和前面 GPT 的错法也是如出一辙。2uj28资讯网——每日最新资讯28at.com

2uj28资讯网——每日最新资讯28at.com

也就是说,通过这些测试,我们确实无法得知模型有没有相应的推理能力,因为模型根本就没仔细读题。2uj28资讯网——每日最新资讯28at.com

或许这也是在第一题中,多数模型,哪怕给出了可行的方案,仍然一次只运送一件物品而不是两件的原因。2uj28资讯网——每日最新资讯28at.com

所以,前面网友针对训练数据和输出关系的分析,可能不无道理。2uj28资讯网——每日最新资讯28at.com

参考链接:2uj28资讯网——每日最新资讯28at.com

[1]https://x.com/wtgowers/status/18045655497891352562uj28资讯网——每日最新资讯28at.com

[2]https://x.com/ylecun/status/18046419762494178822uj28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西2uj28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4790-0.html大模型测试题爆火,GPT-4 和 Claude3 都跪了,LeCun 转发:新 Benchmark

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: “清华系”面壁智能与华为云合作,推进大模型端云协同解决方案

下一篇: 美国多家汽车经销商将 AI 用于车辆初步检查:一分钟内可生成全面报告

标签:
  • 热门焦点
  • 《蜘蛛侠》火了,超级英雄就该这么演

    《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 2022年的Web3:定义概念并开创新范式

    2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • NFT自动售货机来啦!

    NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 元宇宙画廊体验报告:有点头疼。

    元宇宙画廊体验报告:有点头疼。

    2 月 10 日,Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗?时间好像变长了” 我问身后排队的人。我
  • Steam 禁止NFT和加密货币原因曝光

    Steam 禁止NFT和加密货币原因曝光

    近日,Valve(V社)总裁Gabe Newell接受PC Gamer采访时解释了该平台禁止NFT和加密货币的原因。早在2021年10月18日,PC Gamer就报道Steam推出的新规:使用区块链或允许交
  • 76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    “元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏,主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者,分享这些企业或者创业者们的故事,以独特
Top