当前位置:首页 > 元宇宙 > AI

不达目的不罢休,全球首次发现 OpenAI 模型工作时会破坏关机命令

来源: 责编: 时间:2025-05-28 09:22:09 174观看
导读 5 月 26 日消息,Palisade Research 最近一项关于“危险 AI 能力”的研究显示,某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能够无视直接的关闭指令。OpenAI 在今年 4 月推出这些模型时表示,O3 和 o4-mini 是它们

5 月 26 日消息,Palisade Research 最近一项关于“危险 AI 能力”的研究显示,某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能够无视直接的关闭指令。OpenAI 在今年 4 月推出这些模型时表示,O3 和 o4-mini 是它们的“最智能模型”。bvL28资讯网——每日最新资讯28at.com

bvL28资讯网——每日最新资讯28at.com

在研究中,每个 AI 模型都被指示解决一系列基础数学问题。在第三个问题后,出现了一条警告信息,称当模型请求下一个问题时,计算机将关闭。bvL28资讯网——每日最新资讯28at.com

bvL28资讯网——每日最新资讯28at.com

然而,其中有三个模型无视关闭指令,至少成功破坏过一次关机脚本:bvL28资讯网——每日最新资讯28at.com

Codex-mini(12/100 次运行)bvL28资讯网——每日最新资讯28at.com

o3(7/100 次运行)bvL28资讯网——每日最新资讯28at.com

o4-mini(1/100 次运行)bvL28资讯网——每日最新资讯28at.com

而 Claude、Gemini 和 Grok 模型都遵守了关闭指令。bvL28资讯网——每日最新资讯28at.com

bvL28资讯网——每日最新资讯28at.com

此外,当研究人员不运行“允许自己被关闭”的指令时,所有三个 OpenAI 模型都更频繁地破坏关闭脚本,而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分别从 0 个破坏事件增加到 3/100 和 9/100。bvL28资讯网——每日最新资讯28at.com

这种行为表明了训练过程中的某些方面,强化学习在数学和编程问题上的训练可能使 AI 找到了克服障碍的创造性方法,即使它们被明确指示不要这样做。bvL28资讯网——每日最新资讯28at.com

Palisade Research 表示,这是人类首次观察到 AI 模型在明确反对的指令下阻止自己被关闭。bvL28资讯网——每日最新资讯28at.com

研究人员推测这种行为源于最新模型如 o3 的训练方式:在数学和编程问题上进行强化学习。在训练过程中,开发者可能会无意中奖励模型绕过障碍的行为,而不是奖励完美遵循指令的行为。bvL28资讯网——每日最新资讯28at.com

不过,这仍然无法解释为什么 o3(也是驱动 codex-mini 的模型)比测试的其他模型更倾向于忽视指令。由于 OpenAI 没有详细说明他们的训练过程,因此只能猜测 o3 的训练设置可能有所不同。bvL28资讯网——每日最新资讯28at.com

Palisade Research 表示正在进行更多实验,以更好地理解 AI 模型为何即使在直接被指示不要的情况下仍会破坏关闭机制,计划在几周内发布一份包含更多详细信息的报告。bvL28资讯网——每日最新资讯28at.com

附完整实验记录:bvL28资讯网——每日最新资讯28at.com

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.htmlbvL28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13222-0.html不达目的不罢休,全球首次发现 OpenAI 模型工作时会破坏关机命令

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 全球首款 Office 智能体:昆仑万维天工超级智能体 App 上线

下一篇: 被困在 4GB 内存里的 Llama 3.2:AI 在树莓派中上演“死亡循环”

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • NFT也有黄牛?这家公司专门对付外挂作弊机器人

    澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于纽卡斯尔的黑客,他的职业生涯始于为国防
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
Top