当前位置：首页 > 科技 > 网络

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

来源：责编：时间：2023-11-02 17:12:35 412观看

导读有网友找到了GPT-4变“笨”的又一证据。他质疑：OpenAI会缓存历史回复，让GPT-4直接复述以前生成过的答案。明显的例子就是讲笑话。证据显示，即使他将模型的temperature值调高，GPT-4仍重复同一个&ldquo

有网友找到了GPT-4变“笨”的又一证据。

他质疑：

OpenAI会缓存历史回复，让GPT-4直接复述以前生成过的答案。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

明显的例子就是讲笑话。

证据显示，即使他将模型的temperature值调高，GPT-4仍重复同一个“科学家与原子”的回答。

就是那个“为什么科学家不信任原子？因为万物都是由它们编造/构造（make up）出来的”的冷笑话。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

在此，按理说temperature值越大，模型越容易生成一些意想不到的词，不该重复同一个笑话了。

不止如此，即使咱们不动参数，换一个措辞，强调让它讲一个新的、不同的笑话，也无济于事。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

发现者表示：

这说明GPT-4不仅使用缓存，还是聚类查询而非精准匹配某个提问。

这样的好处不言而喻，回复速度可以更快。

不过既然高价买了会员，享受的只是这样的缓存检索服务，谁心里也不爽。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

还有人看完后的心情是：

如果真这样的话，我们一直用GPT-4来评价其他大模型的回答是不是不太公平？

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

当然，也有人不认为这是外部缓存的结果，可能模型本身答案的重复性就有这么高：

此前已有研究表明ChatGPT在讲笑话时，90%的情况下都会重复同样的25个。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

具体怎么说？

证据实锤GPT-4用缓存回复

不仅是忽略temperature值，这位网友还发现：

更改模型的top_p值也没用，GPT-4就跟那一个笑话干上了。

（top_p：用来控制模型返回结果的真实性，想要更准确和基于事实的答案就把值调低，想要多样化的答案就调高）

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

唯一的破解办法是把随机性参数n拉高，这样我们就可以获得“非缓存”的答案，得到一个新笑话。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

不过，它的“代价”是回复速度变慢，毕竟生成新内容会带来一定延迟。

值得一提的是，还有人似乎在本地模型上也发现了类似现象。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

有人表示：截图中的“prefix-match hit” （前缀匹配命中）似乎可以证明确实是用的缓存。

那么问题就来了，大模型到底是如何缓存我们的聊天信息的呢？

好问题，从开头展现的第二个例子来看，显然是进行了某种“聚类”操作，但具体如何应用于深度多轮对话咱不知道。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

姑且不论这个问题，倒是有人看到这里，想起来ChatGPT那句“您的数据存在我们这儿，但一旦聊天结束对话内容就会被删除”的声明，恍然大悟。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

这不禁让一些人开始担忧数据安全问题：

这是否意味着我们发起的聊天内容仍然保存在他们的数据库中？

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

当然，有人分析这个担忧可能过虑了：

也许只是我们的查询embedding和回答缓存被存下来了。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

因此，就像发现者本人说的：

缓存这个操作本身我不太担心。

我担心的是OpenAI这样简单粗暴地汇总我们的问题进行回答，毫不关心temperature等设置，直接聚合明显有不同含义的提示，这样影响很不好，可能“废掉”许多（基于GPT-4的）应用。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

当然，并不是所有人都同意以上发现能够证明OpenAI真的就是在用缓存回复。

他们的理由是作者采用的案例恰好是讲笑话。

毕竟就在今年6月，两个德国学者测试发现，让ChatGPT随便讲个笑话，1008次结果中有90%的情况下都是同样25个笑话的变体。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

像“科学家和原子”这个更是尤其出现频率高，它讲了119次。

因此也就能理解为什么看起来好像是缓存了之前的回答一样。

因此，有网友也提议用其他类型的问题测一测再看。

不过作者坚持认为，不一定非得换问题，光通过测量延迟时间就能很容易地分辨出是不是缓存了。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

后，我们不妨再从“另一个角度”看这个问题：

GPT-4一直讲一个笑话怎么了？

一直以来，咱们不都是强调要让大模型输出一致、可靠的回答吗？这不，它多听话啊（手动狗头）。

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

所以，GPT-4究竟有没有缓存，你有观察到类似现象吗？

参考链接： https://twitter.com/hammer_mt/status/1719150885559812379

文章出处：量子位

本文链接：http://www.28at.com/showinfo-17-16587-0.htmlGPT-4更笨了！一个笑话讲八百遍：让换新的也不听

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：潮州事故与车辆无关！自媒体回应被判向特斯拉道歉：永远不会有

下一篇：网友母亲网购一头猪引热议：坐空调车隔日达一周内死亡补发

标签：

热门焦点

2023 年的 Node.js 生态系统

随着技术的不断演进和创新，Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统，可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
CSS单标签实现转转logo

转转品牌升级后更新了全新的Logo，今天我们用纯CSS来实现转转的新Logo，为了有一定的挑战性，这里我们只使用一个标签实现，将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
微软邀请 Microsoft 365 商业用户，测试视频编辑器 Clipchamp

8 月 1 日消息，微软近日宣布即将面向 Microsoft 365 商业用户，开放 Clipchamp 应用，邀请用户通过该应用来编辑视频。微软于 2021 年收购 Clipchamp，随后开始逐步整合到 Microsof
拼多多APP上线本地生活入口，群雄逐鹿万亿市场

Tech星球（微信ID：tech618）文 | 陈桥辉 Tech星球独家获悉，拼多多在其APP内上线了“本地生活”入口，位置较深，位于首页的“充值中心”内，目前主要售卖美食相关的
三星获批量产iPhone 15全系屏幕：苹果史上最惊艳直屏

按照惯例，苹果将继续在今年9月举办一年一度的秋季新品发布会，有传言称发布会将于9月12日举行，届时全新的iPhone 15系列将正式与大家见面，不出意外的话
三星显示已开始为AR设备研发硅基LED微显示屏

7月18日消息，据外媒报道，随着苹果首款头显产品Vision Pro在6月份正式推出，AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域，对显示屏这一关
iQOO Neo8系列今日官宣：首发天玑9200+ 全球安卓最强芯！

在昨日举行的的联发科新一代旗舰芯片天玑9200+的发布会上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品将全球首发搭载这款当前性能最强大的移动平台
回归OPPO两年，一加赢了销量，输了品牌

成为OPPO旗下主打性能的先锋品牌后，一加屡创佳绩。今年618期间，一加手机全渠道销量同比增长362%，凭借一加 11、一加 Ace 2、一加 Ace 2V三款爆品，一加
onebot M24巧系列一体机采用轻薄机身设计，现已在各平台开售

onebot M24 巧系列一体机目前已在线上线下各平台同步开售。onebot M24 巧系列采用一体化轻薄机身设计，最薄处为 10.15mm，拥有宝石红、午夜蓝、石墨绿、雅致

GPT-4更笨了！一个笑话讲八百遍：让换新的也不听

2023 年的 Node.js 生态系统

CSS单标签实现转转logo

微软邀请 Microsoft 365 商业用户，测试视频编辑器 Clipchamp

拼多多APP上线本地生活入口，群雄逐鹿万亿市场

三星获批量产iPhone 15全系屏幕：苹果史上最惊艳直屏

三星显示已开始为AR设备研发硅基LED微显示屏

iQOO Neo8系列今日官宣：首发天玑9200+ 全球安卓最强芯！

回归OPPO两年，一加赢了销量，输了品牌

onebot M24巧系列一体机采用轻薄机身设计，现已在各平台开售

最新推荐

猜你喜欢

热门推荐

相关资讯