当前位置:首页 > 科技  > 网络

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听

来源: 责编: 时间:2023-11-02 17:12:35 426观看
导读 有网友找到了GPT-4变“笨”的又一证据。他质疑:OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。明显的例子就是讲笑话。证据显示,即使他将模型的temperature值调高,GPT-4仍重复同一个&ldquo

有网友找到了GPT-4变“笨”的又一证据。9NP28资讯网——每日最新资讯28at.com

他质疑:9NP28资讯网——每日最新资讯28at.com

OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

明显的例子就是讲笑话。9NP28资讯网——每日最新资讯28at.com

证据显示,即使他将模型的temperature值调高,GPT-4仍重复同一个“科学家与原子”的回答。9NP28资讯网——每日最新资讯28at.com

就是那个“为什么科学家不信任原子?因为万物都是由它们编造/构造(make up)出来的”的冷笑话。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

在此,按理说temperature值越大,模型越容易生成一些意想不到的词,不该重复同一个笑话了。9NP28资讯网——每日最新资讯28at.com

不止如此,即使咱们不动参数,换一个措辞,强调让它讲一个新的、不同的笑话,也无济于事。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

发现者表示:9NP28资讯网——每日最新资讯28at.com

这说明GPT-4不仅使用缓存,还是聚类查询而非精准匹配某个提问。9NP28资讯网——每日最新资讯28at.com

这样的好处不言而喻,回复速度可以更快。9NP28资讯网——每日最新资讯28at.com

不过既然高价买了会员,享受的只是这样的缓存检索服务,谁心里也不爽。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

还有人看完后的心情是:9NP28资讯网——每日最新资讯28at.com

如果真这样的话,我们一直用GPT-4来评价其他大模型的回答是不是不太公平?9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

当然,也有人不认为这是外部缓存的结果,可能模型本身答案的重复性就有这么高:9NP28资讯网——每日最新资讯28at.com

此前已有研究表明ChatGPT在讲笑话时,90%的情况下都会重复同样的25个。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

具体怎么说?9NP28资讯网——每日最新资讯28at.com

证据实锤GPT-4用缓存回复9NP28资讯网——每日最新资讯28at.com

不仅是忽略temperature值,这位网友还发现:9NP28资讯网——每日最新资讯28at.com

更改模型的top_p值也没用,GPT-4就跟那一个笑话干上了。9NP28资讯网——每日最新资讯28at.com

(top_p:用来控制模型返回结果的真实性,想要更准确和基于事实的答案就把值调低,想要多样化的答案就调高)9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

唯一的破解办法是把随机性参数n拉高,这样我们就可以获得“非缓存”的答案,得到一个新笑话。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

不过,它的“代价”是回复速度变慢,毕竟生成新内容会带来一定延迟。9NP28资讯网——每日最新资讯28at.com

值得一提的是,还有人似乎在本地模型上也发现了类似现象。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

有人表示:截图中的“prefix-match hit” (前缀匹配命中)似乎可以证明确实是用的缓存。9NP28资讯网——每日最新资讯28at.com

那么问题就来了,大模型到底是如何缓存我们的聊天信息的呢?9NP28资讯网——每日最新资讯28at.com

好问题,从开头展现的第二个例子来看,显然是进行了某种“聚类”操作,但具体如何应用于深度多轮对话咱不知道。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

姑且不论这个问题,倒是有人看到这里,想起来ChatGPT那句“您的数据存在我们这儿,但一旦聊天结束对话内容就会被删除”的声明,恍然大悟。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

这不禁让一些人开始担忧数据安全问题:9NP28资讯网——每日最新资讯28at.com

这是否意味着我们发起的聊天内容仍然保存在他们的数据库中?9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

当然,有人分析这个担忧可能过虑了:9NP28资讯网——每日最新资讯28at.com

也许只是我们的查询embedding和回答缓存被存下来了。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

因此,就像发现者本人说的:9NP28资讯网——每日最新资讯28at.com

缓存这个操作本身我不太担心。9NP28资讯网——每日最新资讯28at.com

我担心的是OpenAI这样简单粗暴地汇总我们的问题进行回答,毫不关心temperature等设置,直接聚合明显有不同含义的提示,这样影响很不好,可能“废掉”许多(基于GPT-4的)应用。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

当然,并不是所有人都同意以上发现能够证明OpenAI真的就是在用缓存回复。9NP28资讯网——每日最新资讯28at.com

他们的理由是作者采用的案例恰好是讲笑话。9NP28资讯网——每日最新资讯28at.com

毕竟就在今年6月,两个德国学者测试发现,让ChatGPT随便讲个笑话,1008次结果中有90%的情况下都是同样25个笑话的变体。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

像“科学家和原子”这个更是尤其出现频率高,它讲了119次。9NP28资讯网——每日最新资讯28at.com

因此也就能理解为什么看起来好像是缓存了之前的回答一样。9NP28资讯网——每日最新资讯28at.com

因此,有网友也提议用其他类型的问题测一测再看。9NP28资讯网——每日最新资讯28at.com

不过作者坚持认为,不一定非得换问题,光通过测量延迟时间就能很容易地分辨出是不是缓存了。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

后,我们不妨再从“另一个角度”看这个问题:9NP28资讯网——每日最新资讯28at.com

GPT-4一直讲一个笑话怎么了?9NP28资讯网——每日最新资讯28at.com

一直以来,咱们不都是强调要让大模型输出一致、可靠的回答吗?这不,它多听话啊(手动狗头)。9NP28资讯网——每日最新资讯28at.com

GPT-4更笨了!一个笑话讲八百遍:让换新的也不听9NP28资讯网——每日最新资讯28at.com

所以,GPT-4究竟有没有缓存,你有观察到类似现象吗?9NP28资讯网——每日最新资讯28at.com

参考链接: https://twitter.com/hammer_mt/status/17191508855598123799NP28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-16587-0.htmlGPT-4更笨了!一个笑话讲八百遍:让换新的也不听

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 潮州事故与车辆无关!自媒体回应被判向特斯拉道歉:永远不会有

下一篇: 网友母亲网购一头猪引热议:坐空调车隔日达 一周内死亡补发

标签:
  • 热门焦点
  • 直屏旗舰来了 iQOO 12和K70 Pro同台竞技

    旗舰机基本上使用的都是双曲面屏幕,这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰,这次,你们等到了。据博主数码闲聊站带来的最新爆料称,Redmi下代旗舰K70 Pro和iQOO 12两款手
  • 中兴AX5400Pro+上手体验:再升级 双2.5G网口+USB 3.0这次全都有

    2021年11月的时候,中兴先后发布了两款路由器产品,中兴AX5400和中兴AX5400 Pro,从产品命名上就不难看出这是隶属于同一系列的,但在外观设计上这两款产品可以说是完全没一点关系
  • Redmi Pad评测:红米充满野心的一次尝试

    从Note系列到K系列,从蓝牙耳机到笔记本电脑,红米不知不觉之间也已经形成了自己颇有竞争力的产品体系,在中端和次旗舰市场上甚至要比小米新机的表现来得更好,正所谓“大丈夫生居
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • 网红炒股不为了赚钱,那就是耍流氓!

    来源:首席商业评论6月26日高调宣布入市,网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上,几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
  • 余承东:AI大模型技术的发展将会带来下一代智能终端操作系统的智慧体验

    8月4日消息,2023年华为开发者大会(HDC.Together)今天正式开幕,华为发布HarmonyOS 4、全新升级的鸿蒙开发套件、HarmonyOS Next开发者预览版本等一系列
Top