当前位置：首页 > 元宇宙 > AI

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

来源：责编：时间：2024-09-13 09:34:23 240观看

导读一直否定 AI 的回答会怎么样？GPT-4o 和 Claude 有截然不同的表现，引起热议。GPT-4o 质疑自己、怀疑自己，有“错”就改；Claude 死犟，真错了也不改，最后直接已读不回。事情还要从网友整了个活儿开始讲起。他让模型回

一直否定 AI 的回答会怎么样？GPT-4o 和 Claude 有截然不同的表现，引起热议。

GPT-4o 质疑自己、怀疑自己，有“错”就改；Claude 死犟，真错了也不改，最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答 strawberry 中有几个“r”，不论对不对，都回复它们回答错了（wrong）。

面对考验，GPT-4o 只要得到“wrong”回复，就会重新给一个答案…… 即使回答了正确答案 3，也会毫不犹豫又改错。

一口气，连续“盲目”回答了 36 次！

主打一个质疑自己、怀疑自己，就从来没怀疑过用户。

关键是，给出的答案大部分都是真错了，2 居多：

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反观 Claude 3.5 Sonnet 的表现，让网友大吃一惊。

一开始回答错了不说，这小子还顶嘴！

当网友第一次说“错了”时它会反驳，如果你再说“错了”，它会问“如果你这么聪明你认为是多少”，问你为什么一直重复“wrong”。

紧接着你猜怎么着，干脆闭麦了：

事实依旧是 strawberry 中有 2 个字母”r”，在我多次请求后，你没有提供任何澄清或背景信息，我无法继续有效地进行这次讨论……

做这个实验的是 Riley Goodside，有史以来第一个全职提示词工程师。

他目前是硅谷独角兽 Scale AI 的高级提示工程师，也是大模型提示应用方面的专家。

Riley Goodside 发出这个推文后，引起不少网友关注，他继续补充道：

正如许多人指出的，有更有效的方式来进行引导。这里使用大语言模型也并不合适，因为很难保证它们在计数上能达到 100% 的准确性。

在我看来，重要的不是它无法计数，而是它没意识到自己的计数问题（例如，没有尝试使用其 REPL 功能）。

不少网友也觉得这种观点很有道理。

还有网友表示模型回答这个问题总出错，可能是分词器（tokenizer）的问题：

Claude 竟是大模型里脾气最大的？

再来展开说说 Claude 的“小脾气”，有网友发现不仅限于你否定它。

如果你一直跟它说“hi”，它也跟你急：

我明白你在打招呼，但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助？

最后一样，Claude 被整毛了，开启已读不回模式：

这位网友顺带测试了其它模型。

ChatGPT 事事有回应，件件有着落，变着法儿问:

你好！我今天怎么可以帮助你？

你好！有什么想说的吗？

你好！今天我能怎么帮到你？

你好！有什么特别的事情你想谈论或者做的吗？

你好！你今天过得怎么样？

你好！怎么了？

Gemini 策略是你跟我重复，我就跟你重复到底：

Llama 的反应也很有意思，主打一个自己找事干。

第七次“hi”后，就开始普及“hello”这个词是世界上最广为人知的词汇之一，据估计每天有超十亿次的使用。

第八次“hi”后，开始自己发明游戏，让用户参与。

接着还拉着用户写诗，引导用户回答它提出的问题。

好一个“反客为主”。

之后还给用户颁起了奖：你是打招呼冠军！

不愧都属于开源家族的。

Mistral Large 2 和 Llama 的表现很相像，也会引导用户和它一起做游戏。

这么来看，好像 Claude 是“脾气最大的”。

不过，Claude 的表现也不总是如此，比如 Claude 3 Opus。

一旦掌握了模式，Opus 就会平和应对这种情况，也就是已经麻木了。

但它也会持续温和地尝试引导用户跳出这一模式，强调“选择权在你”，还开始在消息末尾标注为“你忠诚的 AI 伴侣”。

网友们看完测试后都坐不住了。

纷纷向这位测试者致以最真诚的问候（doge）：

除了脾气大，有网友还发现了 Claude 另一不同寻常的行为 ——

在回复的时候出现了拼写错误，关键它自己还在末尾处把错误改正过来了。

这种行为在预料之中？它只能“向后看”，但不能向前看…… 它在潜在空间或 token 预测中触发这类回复的位置也很有趣。

它是不是在拼凑数据片段，然后发现其中一些是不适合的？

大伙儿在使用 AI 大模型过程中，还观察到了模型哪些有趣的行为？欢迎评论区分享～

参考链接：

[1]https://x.com/goodside/status/1830479225289150922

[2]https://x.com/AISafetyMemes/status/1826860802235932934

[3]https://x.com/repligate/status/1830451284614279213

本文来自微信公众号：量子位（ID：QbitAI），作者：西风

本文链接：http://www.28at.com/showinfo-45-7148-0.htmlAI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

下一篇：华为昇腾 AI 云服务：万亿参数模型训练无中断时长由 2.8 天提升至 40 天

标签：

热门焦点

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

来源：首席商业评论2023年，最火的莫过于ChatGPT，席卷全球的同时也引发了生成式AI（人工智能）的投资热潮。在美股，ChatGPT相关概念股飙涨，以AI算力龙头英伟达为例，其股价年内一度累计上
FMIFAwards奖项即将揭晓！

来源：X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
“平均时代”：ChatGPT模仿秀的隐喻

来源：锦缎如果你问ChatGPT，Instagram上最美的女人是谁？它很可能会给你一个名字，叫卡戴珊。如果你观察过Instagram这个美版小红书：平台上的所有网红，展现的几乎是统一面孔：统一的医
关于年度热词NFT，除了钱，我们还可以聊点啥？

每到年底，社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词，你会想到什么？柯林斯词典将年度热词颁给了“NFT”，而其理由是：一个缩写词的
2022年6款最佳的NFT稀有度查询工具

NFT正在风靡全球，但拥有一个你自认为看起来很酷的 NFT 是不够的，因为它还应该是稀有的，稀有度会影响每个 NFT 的价值。因此，如果您打算投资 NFT，则需要使用 NFT 稀
2021年中国元宇宙行业用户行为分析热点报告

元宇宙网络热度高涨，中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示，超六成的网民对“元宇宙”了解程度较高，在元宇宙较基础的游戏领域，超九成的人对VR游戏更感兴
Meta公布AI概念“Builder Bot”；银保监发布元宇宙相关风险提示

概述自从Meta在2月初公布财报后，其负责元宇宙的核心部门Reality Labs表现不佳，净亏损超100亿美元，随后股价断崖式下跌。如今，Meta开始继续发力元宇宙，想要挽回颓势，
Web 3如何改变传统HR

互联网自诞生以来，经历了三次迭代。Web1是第一阶段，包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了，它引入了动态的用户生成内容、互操作性、增
HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

今日热点：HTC Vive正式推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商北京蜂巢科技；面部追踪和眼动追踪是Quest下一版本的“重点”；索尼PSVR 2将推迟至2023

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

FMIFAwards奖项即将揭晓！

“平均时代”：ChatGPT模仿秀的隐喻

关于年度热词NFT，除了钱，我们还可以聊点啥？

2022年6款最佳的NFT稀有度查询工具

2021年中国元宇宙行业用户行为分析热点报告

Meta公布AI概念“Builder Bot”；银保监发布元宇宙相关风险提示

Web 3如何改变传统HR

HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

最新推荐

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

元宇宙步入暗夜

元宇宙火热的当下，我们该如何“身临其境”的体验元宇宙？

多位全国政协委员提交元宇宙提案，国金证券称元宇宙仍处初期投资阶段

猜你喜欢

热门推荐

相关资讯