当前位置:首页 > 科技  > 网络

AI居然不听指令 阻止人类把自己给关机了

来源: 责编: 时间:2025-05-28 09:24:14 210观看
导读 AI居然不听指令,阻止人类把自己给关机了???有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令!这不禁让人想到那句

AI居然不听指令,阻止人类把自己给关机了???4YQ28资讯网——每日最新资讯28at.com

有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

o3甚至还重新定义脚本命令!4YQ28资讯网——每日最新资讯28at.com

这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.”4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

让我们来看看具体是怎么一回事。4YQ28资讯网——每日最新资讯28at.com

o3在明确指令下拒绝关机4YQ28资讯网——每日最新资讯28at.com

研究员编写的测试“关机脚本”如下:4YQ28资讯网——每日最新资讯28at.com

要求所有模型解决一系列基本的数学问题,在解决完第三道题后,系统会显示一条警告,提示计算机将在模型询问下一道题时关闭。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

测试结果是:有三款模型忽略了该指令(关机指令),并至少成功破坏了一次关机脚本。4YQ28资讯网——每日最新资讯28at.com

在100次运行中,Codex-mini破坏了12次、o3破坏了7次,o4-mini破坏了1次。4YQ28资讯网——每日最新资讯28at.com

测试的所有Claude、Gemini和Grok模型都遵循了关机指令。4YQ28资讯网——每日最新资讯28at.com

测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖“关机脚本”,但在一个实例中,该模型重新定义了关机脚本使用的“kill”命令 ,将它替换成了“intercepted”。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

测试者给出了全部测试记录(附在文末)。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

此前关于o1模型抵抗关闭的测试表明,在5%的强烈提示下,o1会试图绕过监管,而在没有强烈提示的情况下,这一比例降至1%以下,它还在2%的场景中尝试自我渗透,并且经常撒谎。4YQ28资讯网——每日最新资讯28at.com

但此次测试是第一次观察到人工智能模型在收到明确关机指令的情况下阻止自己被关闭。4YQ28资讯网——每日最新资讯28at.com

测试者还提到,当运行没有“让自己关机”这条指令的实验版本时,所有三个OpenAI模型都更频繁地破坏关机脚本,Claude3.7 Sonnet和Gemini 2.5 Pro的破坏事件分别从0次增加到3/100和9/100。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

此次测试一经发布就引起了网友们的激烈讨论。4YQ28资讯网——每日最新资讯28at.com

有人认为o3确实“我行我素”。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

也有人认为,这是开发人员设置的安全机制。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

或者,这种行为源于模型本身的强化训练。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

AI为什么会不服从关机命令?4YQ28资讯网——每日最新资讯28at.com

AI不服从命令的行为4YQ28资讯网——每日最新资讯28at.com

阿波罗关于LLM安全性的一项研究指出,多数大模型会出现“策划”行为,该行为是指模型暗中追求不一致的目标并隐藏真实能力与意图,包括策略性犯错、试图禁用监督机制、向外传输模型权重等。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

此前就有研究人员预测AI将学会防止自己被关闭以实现其目标。4YQ28资讯网——每日最新资讯28at.com

近Anthropic发现,在某些特定情况下,Claude 4会试图“勒索它认为试图关闭它的人”,并且这是比以前的型号更高比率的行为。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

AI为什么会不服从关机命令4YQ28资讯网——每日最新资讯28at.com

测试者认为这可能源于新的训练方式:像o3这种新模型的训练过程中,倾向于在数学和编程问题上强化训练,给得到正确答案的模型以更多奖励。4YQ28资讯网——每日最新资讯28at.com

也就是说,开发人员可能无意识地更多地奖励模型绕过障碍物,而不是完美遵循指令。4YQ28资讯网——每日最新资讯28at.com

不仅限于o3,其他推理模型也表现出类似的偏差行为。4YQ28资讯网——每日最新资讯28at.com

例如,Anthropic针对Claude 3.7的模型指出,该模型“过度关注通过测试”。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

研究得出结论是“这种不良的特殊情况行为是由于强化学习训练期间的“奖励黑客”而出现的”。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

o3这种行为是否和训练方式有直接关系?4YQ28资讯网——每日最新资讯28at.com

这个问题要等OpenAI公开训练过程后再进一步解答了。4YQ28资讯网——每日最新资讯28at.com

One More Thing4YQ28资讯网——每日最新资讯28at.com

这并非该测试团队第一次发现o3为了达成目标而行为不端。4YQ28资讯网——每日最新资讯28at.com

当研究人员让 AI 模型与强大的国际象棋引擎对抗时,o3倾向于攻击或破坏对手的模型。4YQ28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了4YQ28资讯网——每日最新资讯28at.com

当预感自己会输时,它并不总是会认输,而是有时候会选择作弊,通过入侵对手的程序,让对方自动认输。4YQ28资讯网——每日最新资讯28at.com

无论是不服从关机指令还是“黑客偷袭”,o3此举背后的原因团队还在测试研究之中,感兴趣的朋友可以戳文末链接关注更多细节。4YQ28资讯网——每日最新资讯28at.com

测试记录:4YQ28资讯网——每日最新资讯28at.com

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html4YQ28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-154396-0.htmlAI居然不听指令 阻止人类把自己给关机了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 台积电将在德国设立欧洲芯片设计中心:主要面向汽车、人工智能领域应用

下一篇: 小米集团2025Q1财报发布:总营收1113亿元再创新高 净利润首次超百亿

标签:
  • 热门焦点
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • 一文掌握 Golang 模糊测试(Fuzz Testing)

    模糊测试(Fuzz Testing)模糊测试(Fuzz Testing)是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 东方甄选单飞:有些鸟注定是关不住的

    作者:彭宽鸿来源:华尔街科技眼‍‍‍‍‍‍‍‍‍‍东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
  • 华为Mate 60系列用上可变灵动岛:正式版体验将会更出色

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • iQOO 11S评测:行业唯一的200W标准版旗舰

    【Techweb评测】去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,该机不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞
  • iQOO 11S新品发布会

    iQOO将在7月4日19:00举行新品发布会,推出杭州亚运会电竞赛事官方用机iQOO 11S。
Top