当前位置:首页 > 元宇宙 > AI

OpenAI 新推理模型被曝产生更多“幻觉”,o3 o4-mini 性能与错误率一同提升

来源: 责编: 时间:2025-04-21 09:45:17 158观看
导读 4 月 19 日消息,OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准,不过,这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。据外媒 TechCrunch 今日报道,幻觉问题一直

4 月 19 日消息,OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准,不过,这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。0lR28资讯网——每日最新资讯28at.com

据外媒 TechCrunch 今日报道,幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一,即使是目前性能最优秀的模型也难以完全避免。过去,每一代新模型在降低幻觉频率方面通常都会取得小幅进步,但 o3 和 o4-mini 却打破了这一趋势。0lR28资讯网——每日最新资讯28at.com

根据 OpenAI 的内部测试,作为推理模型的 o3 和 o4-mini,出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini,甚至还高于传统“非推理”模型(注:如 GPT-4o)。0lR28资讯网——每日最新资讯28at.com

OpenAI 在针对这两款模型发布的技术报告中表示:“要弄清楚随着推理模型规模的扩大,幻觉问题为何反而变得更加严重,还需要进一步研究。”报告指出,尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往,但由于模型输出的答案总量增加,导致其既能作出更多准确判断,同时也不可避免地出现更多错误甚至幻觉。0lR28资讯网——每日最新资讯28at.com

在 OpenAI 设计的内部基准测试 PersonQA 中,o3 回答问题时出现幻觉的比例达到 33%,几乎是前代推理模型 o1 和 o3-mini 的两倍,后者的幻觉率分别为 16% 和 14.8%。在同一测试中,o4-mini 的表现更差,幻觉率高达 48%。0lR28资讯网——每日最新资讯28at.com

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现,o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如,Transluce 曾观察到,o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码,并将结果复制进了答案中。实际上,虽然 o3 拥有一部分工具访问权限,但并不具备执行这种操作的能力。0lR28资讯网——每日最新资讯28at.com

OpenAI 发言人 Niko Felix 表示:“解决幻觉问题是我们一直在推进的重点研究方向,我们也在不断努力提升模型的准确性与可靠性。”0lR28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12416-0.htmlOpenAI 新推理模型被曝产生更多“幻觉”,o3 o4-mini 性能与错误率一同提升

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 创投热点速览:云鲸融资、霸王茶姬上市与遇见小面冲刺港股等

下一篇: 一张图 + 一句话实现任意角色场景姿势,腾讯混元宣布开源定制化图像生成插件 InstantCharacter

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 元宇宙不完全是想出来的,而是实打实做出来的

    沈阳强调,元宇宙不完全是想出来的,而是靠实打实做出来的;互联网向三维化升级是已经明确的大方向,这意味着大量的资金和技术会持续涌入。跨入2022年,元宇宙并没有“
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
  • 76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    “元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏,主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者,分享这些企业或者创业者们的故事,以独特
Top