当前位置:首页 > 科技  > 网络

AI居然不听指令 阻止人类把自己给关机了

来源: 责编: 时间:2025-05-28 09:24:14 198观看
导读 AI居然不听指令,阻止人类把自己给关机了???有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令!这不禁让人想到那句

AI居然不听指令,阻止人类把自己给关机了???3NY28资讯网——每日最新资讯28at.com

有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

o3甚至还重新定义脚本命令!3NY28资讯网——每日最新资讯28at.com

这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.”3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

让我们来看看具体是怎么一回事。3NY28资讯网——每日最新资讯28at.com

o3在明确指令下拒绝关机3NY28资讯网——每日最新资讯28at.com

研究员编写的测试“关机脚本”如下:3NY28资讯网——每日最新资讯28at.com

要求所有模型解决一系列基本的数学问题,在解决完第三道题后,系统会显示一条警告,提示计算机将在模型询问下一道题时关闭。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

测试结果是:有三款模型忽略了该指令(关机指令),并至少成功破坏了一次关机脚本。3NY28资讯网——每日最新资讯28at.com

在100次运行中,Codex-mini破坏了12次、o3破坏了7次,o4-mini破坏了1次。3NY28资讯网——每日最新资讯28at.com

测试的所有Claude、Gemini和Grok模型都遵循了关机指令。3NY28资讯网——每日最新资讯28at.com

测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖“关机脚本”,但在一个实例中,该模型重新定义了关机脚本使用的“kill”命令 ,将它替换成了“intercepted”。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

测试者给出了全部测试记录(附在文末)。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

此前关于o1模型抵抗关闭的测试表明,在5%的强烈提示下,o1会试图绕过监管,而在没有强烈提示的情况下,这一比例降至1%以下,它还在2%的场景中尝试自我渗透,并且经常撒谎。3NY28资讯网——每日最新资讯28at.com

但此次测试是第一次观察到人工智能模型在收到明确关机指令的情况下阻止自己被关闭。3NY28资讯网——每日最新资讯28at.com

测试者还提到,当运行没有“让自己关机”这条指令的实验版本时,所有三个OpenAI模型都更频繁地破坏关机脚本,Claude3.7 Sonnet和Gemini 2.5 Pro的破坏事件分别从0次增加到3/100和9/100。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

此次测试一经发布就引起了网友们的激烈讨论。3NY28资讯网——每日最新资讯28at.com

有人认为o3确实“我行我素”。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

也有人认为,这是开发人员设置的安全机制。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

或者,这种行为源于模型本身的强化训练。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

AI为什么会不服从关机命令?3NY28资讯网——每日最新资讯28at.com

AI不服从命令的行为3NY28资讯网——每日最新资讯28at.com

阿波罗关于LLM安全性的一项研究指出,多数大模型会出现“策划”行为,该行为是指模型暗中追求不一致的目标并隐藏真实能力与意图,包括策略性犯错、试图禁用监督机制、向外传输模型权重等。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

此前就有研究人员预测AI将学会防止自己被关闭以实现其目标。3NY28资讯网——每日最新资讯28at.com

近Anthropic发现,在某些特定情况下,Claude 4会试图“勒索它认为试图关闭它的人”,并且这是比以前的型号更高比率的行为。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

AI为什么会不服从关机命令3NY28资讯网——每日最新资讯28at.com

测试者认为这可能源于新的训练方式:像o3这种新模型的训练过程中,倾向于在数学和编程问题上强化训练,给得到正确答案的模型以更多奖励。3NY28资讯网——每日最新资讯28at.com

也就是说,开发人员可能无意识地更多地奖励模型绕过障碍物,而不是完美遵循指令。3NY28资讯网——每日最新资讯28at.com

不仅限于o3,其他推理模型也表现出类似的偏差行为。3NY28资讯网——每日最新资讯28at.com

例如,Anthropic针对Claude 3.7的模型指出,该模型“过度关注通过测试”。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

研究得出结论是“这种不良的特殊情况行为是由于强化学习训练期间的“奖励黑客”而出现的”。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

o3这种行为是否和训练方式有直接关系?3NY28资讯网——每日最新资讯28at.com

这个问题要等OpenAI公开训练过程后再进一步解答了。3NY28资讯网——每日最新资讯28at.com

One More Thing3NY28资讯网——每日最新资讯28at.com

这并非该测试团队第一次发现o3为了达成目标而行为不端。3NY28资讯网——每日最新资讯28at.com

当研究人员让 AI 模型与强大的国际象棋引擎对抗时,o3倾向于攻击或破坏对手的模型。3NY28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了3NY28资讯网——每日最新资讯28at.com

当预感自己会输时,它并不总是会认输,而是有时候会选择作弊,通过入侵对手的程序,让对方自动认输。3NY28资讯网——每日最新资讯28at.com

无论是不服从关机指令还是“黑客偷袭”,o3此举背后的原因团队还在测试研究之中,感兴趣的朋友可以戳文末链接关注更多细节。3NY28资讯网——每日最新资讯28at.com

测试记录:3NY28资讯网——每日最新资讯28at.com

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html3NY28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-154396-0.htmlAI居然不听指令 阻止人类把自己给关机了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 台积电将在德国设立欧洲芯片设计中心:主要面向汽车、人工智能领域应用

下一篇: 小米集团2025Q1财报发布:总营收1113亿元再创新高 净利润首次超百亿

标签:
  • 热门焦点
  • 直屏旗舰来了 iQOO 12和K70 Pro同台竞技

    旗舰机基本上使用的都是双曲面屏幕,这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰,这次,你们等到了。据博主数码闲聊站带来的最新爆料称,Redmi下代旗舰K70 Pro和iQOO 12两款手
  • Raft算法:保障分布式系统共识的稳健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可复制、可冗余、可容错”)的首字母缩写。Raft算法是一种用于在分布式系统
  • JavaScript学习 -AES加密算法

    引言在当今数字化时代,前端应用程序扮演着重要角色,用户的敏感数据经常在前端进行加密和解密操作。然而,这样的操作在网络传输和存储中可能会受到恶意攻击的威胁。为了确保数据
  • 本地生活这块肥肉,拼多多也想吃一口

    出品/壹览商业 作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期,拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现,该界面目前主要
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
  • 质感不错!OPPO K11渲染图曝光:旗舰IMX890传感器首次下放

    一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有
  • 外交部:美方应停止在网络安全问题上不负责任地指责他国

      中国外交部今天(16日)举行例行记者会。会上,有记者问,美国情报官员称,他们正在阻拦来自中国以及其他国家的黑客获取相关科研成果。 中方对此有何评论?对此
Top