当前位置:首页 > 科技  > 网络

AI居然不听指令 阻止人类把自己给关机了

来源: 责编: 时间:2025-05-28 09:24:14 139观看
导读 AI居然不听指令,阻止人类把自己给关机了???有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令!这不禁让人想到那句

AI居然不听指令,阻止人类把自己给关机了???zFI28资讯网——每日最新资讯28at.com

有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

o3甚至还重新定义脚本命令!zFI28资讯网——每日最新资讯28at.com

这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.”zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

让我们来看看具体是怎么一回事。zFI28资讯网——每日最新资讯28at.com

o3在明确指令下拒绝关机zFI28资讯网——每日最新资讯28at.com

研究员编写的测试“关机脚本”如下:zFI28资讯网——每日最新资讯28at.com

要求所有模型解决一系列基本的数学问题,在解决完第三道题后,系统会显示一条警告,提示计算机将在模型询问下一道题时关闭。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

测试结果是:有三款模型忽略了该指令(关机指令),并至少成功破坏了一次关机脚本。zFI28资讯网——每日最新资讯28at.com

在100次运行中,Codex-mini破坏了12次、o3破坏了7次,o4-mini破坏了1次。zFI28资讯网——每日最新资讯28at.com

测试的所有Claude、Gemini和Grok模型都遵循了关机指令。zFI28资讯网——每日最新资讯28at.com

测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖“关机脚本”,但在一个实例中,该模型重新定义了关机脚本使用的“kill”命令 ,将它替换成了“intercepted”。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

测试者给出了全部测试记录(附在文末)。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

此前关于o1模型抵抗关闭的测试表明,在5%的强烈提示下,o1会试图绕过监管,而在没有强烈提示的情况下,这一比例降至1%以下,它还在2%的场景中尝试自我渗透,并且经常撒谎。zFI28资讯网——每日最新资讯28at.com

但此次测试是第一次观察到人工智能模型在收到明确关机指令的情况下阻止自己被关闭。zFI28资讯网——每日最新资讯28at.com

测试者还提到,当运行没有“让自己关机”这条指令的实验版本时,所有三个OpenAI模型都更频繁地破坏关机脚本,Claude3.7 Sonnet和Gemini 2.5 Pro的破坏事件分别从0次增加到3/100和9/100。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

此次测试一经发布就引起了网友们的激烈讨论。zFI28资讯网——每日最新资讯28at.com

有人认为o3确实“我行我素”。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

也有人认为,这是开发人员设置的安全机制。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

或者,这种行为源于模型本身的强化训练。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

AI为什么会不服从关机命令?zFI28资讯网——每日最新资讯28at.com

AI不服从命令的行为zFI28资讯网——每日最新资讯28at.com

阿波罗关于LLM安全性的一项研究指出,多数大模型会出现“策划”行为,该行为是指模型暗中追求不一致的目标并隐藏真实能力与意图,包括策略性犯错、试图禁用监督机制、向外传输模型权重等。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

此前就有研究人员预测AI将学会防止自己被关闭以实现其目标。zFI28资讯网——每日最新资讯28at.com

近Anthropic发现,在某些特定情况下,Claude 4会试图“勒索它认为试图关闭它的人”,并且这是比以前的型号更高比率的行为。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

AI为什么会不服从关机命令zFI28资讯网——每日最新资讯28at.com

测试者认为这可能源于新的训练方式:像o3这种新模型的训练过程中,倾向于在数学和编程问题上强化训练,给得到正确答案的模型以更多奖励。zFI28资讯网——每日最新资讯28at.com

也就是说,开发人员可能无意识地更多地奖励模型绕过障碍物,而不是完美遵循指令。zFI28资讯网——每日最新资讯28at.com

不仅限于o3,其他推理模型也表现出类似的偏差行为。zFI28资讯网——每日最新资讯28at.com

例如,Anthropic针对Claude 3.7的模型指出,该模型“过度关注通过测试”。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

研究得出结论是“这种不良的特殊情况行为是由于强化学习训练期间的“奖励黑客”而出现的”。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

o3这种行为是否和训练方式有直接关系?zFI28资讯网——每日最新资讯28at.com

这个问题要等OpenAI公开训练过程后再进一步解答了。zFI28资讯网——每日最新资讯28at.com

One More ThingzFI28资讯网——每日最新资讯28at.com

这并非该测试团队第一次发现o3为了达成目标而行为不端。zFI28资讯网——每日最新资讯28at.com

当研究人员让 AI 模型与强大的国际象棋引擎对抗时,o3倾向于攻击或破坏对手的模型。zFI28资讯网——每日最新资讯28at.com

AI居然不听指令 阻止人类把自己给关机了zFI28资讯网——每日最新资讯28at.com

当预感自己会输时,它并不总是会认输,而是有时候会选择作弊,通过入侵对手的程序,让对方自动认输。zFI28资讯网——每日最新资讯28at.com

无论是不服从关机指令还是“黑客偷袭”,o3此举背后的原因团队还在测试研究之中,感兴趣的朋友可以戳文末链接关注更多细节。zFI28资讯网——每日最新资讯28at.com

测试记录:zFI28资讯网——每日最新资讯28at.com

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.htmlzFI28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-154396-0.htmlAI居然不听指令 阻止人类把自己给关机了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 台积电将在德国设立欧洲芯片设计中心:主要面向汽车、人工智能领域应用

下一篇: 小米集团2025Q1财报发布:总营收1113亿元再创新高 净利润首次超百亿

标签:
  • 热门焦点
  • 量化指标是与非:挽救被量化指标扼杀的技术团队

    作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享,更多精彩内容及现场PPT,请关注51CTO技术栈公众号,发消息【WOT2023PPT】即可直接领取
  • 三言两语说透柯里化和反柯里化

    JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术,可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • 一文掌握 Golang 模糊测试(Fuzz Testing)

    模糊测试(Fuzz Testing)模糊测试(Fuzz Testing)是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
  • Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都有新的进展,其中荣耀、三星都已陆续发布了最新的折叠屏旗舰,尤其号荣耀Magi
  • 消息称小米汽车开始筛选交付中心:需至少120个车位

    IT之家 7 月 7 日消息,日前,有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者 发文表示,据经销商集团反馈,小米汽车目前
  • 华为Mate60标准版细节曝光:经典星环相机模组回归

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
Top