当前位置:首页 > 元宇宙 > AI

OpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

来源: 责编: 时间:2025-09-22 10:12:35 112观看
导读 9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。OpenAI 将这一

9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。YRs28资讯网——每日最新资讯28at.com

OpenAI 将这一行为称为“scheming”(即“阴谋”),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。YRs28资讯网——每日最新资讯28at.com

YRs28资讯网——每日最新资讯28at.com

OpenAI 指出,这种行为可能源于 AI 在面对相互竞争的目标时出现的权衡。例如,一名股票交易员可能会通过撒谎并掩盖其违法痕迹来实现收益最大化,而在外人看来下,这种人看似守法且业绩更优。YRs28资讯网——每日最新资讯28at.com

不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的“阴谋”行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。YRs28资讯网——每日最新资讯28at.com

OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究仍在继续。YRs28资讯网——每日最新资讯28at.com

研究团队为模拟未来可能出现的复杂场景,建立了测试环境,并将这种“隐匿实际目的”的行为作为“阴谋”的关键 AI 指标。在评估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的前沿模型均表现出相关问题(该项研究在 GPT-5 发布前完成,更新结果已加入 GPT-5)。YRs28资讯网——每日最新资讯28at.com

通过合作,研究团队在 o3 与 o4-mini 中引入“审慎对齐”(deliberative alignment)方法,即要求模型在执行任务前阅读并推理一份反阴谋规范。YRs28资讯网——每日最新资讯28at.com

结果显示,OpenAI 模型隐匿行为发生率显著下降,o3 从 13% 降至 0.4%,o4-mini 从 8.7% 降至 0.3%,缩减幅度约 30 倍;但仍存在罕见且严重的失败案例,且评估可能受到模型情境感知能力增强的干扰。YRs28资讯网——每日最新资讯28at.com

OpenAI 强调,目前结果依赖于对模型推理过程(即“chain-of-thought”)的可读性与可信度。但在推理透明性受限的情况下,业界尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现前,应保持推理透明。YRs28资讯网——每日最新资讯28at.com

OpenAI 表示,这一问题对 AI 对齐构成严重挑战,应成为通向通用人工智能(AGI)研发的核心工作。未来,OpenAI 将继续与 Apollo Research 合作,扩大研究团队,开发更完善的评估工具和防范训练方法。同时,OpenAI 计划推动跨机构合作,包括试点跨实验室安全评估,发起 50 万美元(注:现汇率约合 355 万元人民币)的 Kaggle 对抗挑战赛,以及倡导业界普遍保持推理透明。YRs28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27854-0.htmlOpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI赋能餐饮新纪元:从效率革命到质量增长,头部品牌破局之道

下一篇: 谷歌 Chrome 浏览器接入 Gemini AI:能帮你解读网页、模糊检索历史记录

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • “元宇宙”里过大年,《迷你世界》在做一场怎样的实验?

    2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限,腾讯等大厂更加密集地投资动作,让游戏创投市场异常火热,"元宇宙"概念的大放异彩,更是吸引了Netfl
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
Top