当前位置:首页 > 元宇宙 > AI

OpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

来源: 责编: 时间:2025-09-22 10:12:35 65观看
导读 9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。OpenAI 将这一

9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。4Nw28资讯网——每日最新资讯28at.com

OpenAI 将这一行为称为“scheming”(即“阴谋”),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。4Nw28资讯网——每日最新资讯28at.com

4Nw28资讯网——每日最新资讯28at.com

OpenAI 指出,这种行为可能源于 AI 在面对相互竞争的目标时出现的权衡。例如,一名股票交易员可能会通过撒谎并掩盖其违法痕迹来实现收益最大化,而在外人看来下,这种人看似守法且业绩更优。4Nw28资讯网——每日最新资讯28at.com

不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的“阴谋”行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。4Nw28资讯网——每日最新资讯28at.com

OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究仍在继续。4Nw28资讯网——每日最新资讯28at.com

研究团队为模拟未来可能出现的复杂场景,建立了测试环境,并将这种“隐匿实际目的”的行为作为“阴谋”的关键 AI 指标。在评估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的前沿模型均表现出相关问题(该项研究在 GPT-5 发布前完成,更新结果已加入 GPT-5)。4Nw28资讯网——每日最新资讯28at.com

通过合作,研究团队在 o3 与 o4-mini 中引入“审慎对齐”(deliberative alignment)方法,即要求模型在执行任务前阅读并推理一份反阴谋规范。4Nw28资讯网——每日最新资讯28at.com

结果显示,OpenAI 模型隐匿行为发生率显著下降,o3 从 13% 降至 0.4%,o4-mini 从 8.7% 降至 0.3%,缩减幅度约 30 倍;但仍存在罕见且严重的失败案例,且评估可能受到模型情境感知能力增强的干扰。4Nw28资讯网——每日最新资讯28at.com

OpenAI 强调,目前结果依赖于对模型推理过程(即“chain-of-thought”)的可读性与可信度。但在推理透明性受限的情况下,业界尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现前,应保持推理透明。4Nw28资讯网——每日最新资讯28at.com

OpenAI 表示,这一问题对 AI 对齐构成严重挑战,应成为通向通用人工智能(AGI)研发的核心工作。未来,OpenAI 将继续与 Apollo Research 合作,扩大研究团队,开发更完善的评估工具和防范训练方法。同时,OpenAI 计划推动跨机构合作,包括试点跨实验室安全评估,发起 50 万美元(注:现汇率约合 355 万元人民币)的 Kaggle 对抗挑战赛,以及倡导业界普遍保持推理透明。4Nw28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27854-0.htmlOpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI赋能餐饮新纪元:从效率革命到质量增长,头部品牌破局之道

下一篇: 谷歌 Chrome 浏览器接入 Gemini AI:能帮你解读网页、模糊检索历史记录

标签:
  • 热门焦点
  • 元娲2.7上线:虚拟人视频制作速度疯狂翻倍!

    来源:清元宇宙 炎炎夏日努力工作的Q仔的电脑都冒烟儿啦~今天要给大家介绍两个新小伙伴——小元和小娲,他们将给大家解读元娲2.7版本重磅更新内容~大家掌声欢迎~~~本次更
  • 抢先推出“元宇宙”饮料,可口可乐赢麻了

    试图傍上元宇宙的品牌千千万,但像可口可乐玩得这么花的,属实不多。01 可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • NFT 技术将传世之作带入博物馆

    意大利四大博物馆已与一个项目合作,该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了 科技公司Cincello的国际专
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
  • PayPal CEO 的加密语录:加密货币将重新定义金融世界

    PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头,已经允许美国和英国的用户交易或持有比特币(BTC)、以太坊(ETH)、比特现金(BCH
Top