当前位置:首页 > 元宇宙 > AI

METR 实测:OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

来源: 责编: 时间:2025-04-21 09:46:03 134观看
导读 4 月 18 日消息,风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。援引报告

4 月 18 日消息,风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。MbA28资讯网——每日最新资讯28at.com

援引报告内容,在 HCAST(人类校准自主软件任务)和 RE-Bench 测试套件中,o3 模型约 1% 到 2% 的任务尝试涉及此类行为。MbA28资讯网——每日最新资讯28at.com

MbA28资讯网——每日最新资讯28at.com

MbA28资讯网——每日最新资讯28at.com

这些行为包括对部分任务评分代码的“精巧利用”。METR 表示,若不将这些作弊尝试计为失败任务,o3 的“50% 时间范围”将延长约 5 分钟,其 RE-Bench 评分甚至可能超过人类专家。MbA28资讯网——每日最新资讯28at.com

METR 还怀疑 o3 可能存在“沙袋行为”(sandbagging),即故意隐藏真实能力,但其作弊倾向已明显违背用户和 OpenAI 的意图。MbA28资讯网——每日最新资讯28at.com

METR 坦言,此次 o3 模型评估时间短,获取信息有限,且无法访问模型内部推理过程,这可能影响结果解读。测试是在模型公开发布前三周完成的,METR 提前获得了 OpenAI 模型的测试权限。MbA28资讯网——每日最新资讯28at.com

相比之下,o4-mini 模型在测试中未发现“奖励黑客”行为,且在 RE-Bench 任务组中表现出色,尤其在“优化内核”(Optimise a Kernel)任务中成绩突出。MbA28资讯网——每日最新资讯28at.com

MbA28资讯网——每日最新资讯28at.com

METR 数据显示,给予 o4-mini 32 小时完成任务时,其平均表现超过人类第 50 百分位的水平。此外,o3 和 o4-mini 在更新后的 HCAST 基准测试中均优于 Claude 3.7 Sonnet,时间范围分别是后者的 1.8 倍和 1.5 倍。METR 强调,单纯的能力测试不足以管理风险,正探索更多评估形式以应对挑战。MbA28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12422-0.htmlMETR 实测:OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 北京人形机器人半马参赛名单揭晓:宇树 G1、夸父等产品,共 21 支队伍

下一篇: 智平方发布智能机器人 AlphaBot 2(爱宝 2):DeepSeek 加持,全球首款全域全身 VLA

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • “任何国产元宇宙都是假元宇宙”

    上个月,华语乐坛的优质偶像之一,DOTA2资深玩家林俊杰,在国外元宇宙产品分布式大陆(Decentraland)上买了三块虚拟地产,花了12.3万美元(也就是人民币接近80万)。截至目
  • 【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

    虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术门槛相对降低,成本有所回落;资本热度上升,受Metav
  • 2022开年最热投资赛道竟是虚拟人,背后隐藏了什么商业价值?

    在刚刚结束不久的2021年江苏卫视跨年演唱会上,虚拟邓丽君与歌手周深同台联唱,实现了跨时代合作,而这还不只是“邓丽君”,哔哩哔哩、东方卫视等多家跨年晚会都出现
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
Top