当前位置:首页 > 元宇宙 > AI

OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来源: 责编: 时间:2024-09-27 16:34:57 22观看
导读 9 月 25 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2

9 月 25 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。jKB28资讯网——每日最新资讯28at.com

PlanBench 基准简介

PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。jKB28资讯网——每日最新资讯28at.com

OpenAI o1 模型成绩

在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。jKB28资讯网——每日最新资讯28at.com

在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而 OpenAI 的 o1 模型准确率达到 52.8%。附上报告图片如下:jKB28资讯网——每日最新资讯28at.com

jKB28资讯网——每日最新资讯28at.com

研究人员还测试了一种新的随机变体,以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中,O1 的准确率降至 37.3%,但仍远远超过了得分接近零的其它模型。jKB28资讯网——每日最新资讯28at.com

规划步骤越多,性能下降越明显

随着任务越来越复杂,o1 的表现也急剧下降。在需要 20 到 40 个规划步骤的问题上,o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。jKB28资讯网——每日最新资讯28at.com

该模型在识别无法解决的任务方面也很吃力,只有 27% 的时间能够正确识别。在 54% 的情况下,它错误地生成了完整但不可能完成的计划。jKB28资讯网——每日最新资讯28at.com

“Quantum improvement”,但并非突破性

虽然 o1 在基准性能上实现了“量子改进”(Quantum improvement),但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法,可以在更短的计算时间内实现完美的准确性。jKB28资讯网——每日最新资讯28at.com

研究还强调了 o1 的高资源消耗,运行这些测试需要花费近 1900 美元,而经典算法在标准计算机上运行几乎不需要任何成本。jKB28资讯网——每日最新资讯28at.com

研究人员强调,对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,虽然像 o1 这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力还不够强大。jKB28资讯网——每日最新资讯28at.com

jKB28资讯网——每日最新资讯28at.com

由媒体TheDecoder 使用 Midjourney 生成

本文链接:http://www.28at.com/showinfo-45-7799-0.htmlOpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软发布新工具,检测和纠正 AI 幻觉内容

下一篇: 世嘉/ATLUS重磅来袭!东京电玩展直播,游戏迷们别错过!

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • AIGC产品测评TOP25丨谁能抢到下个十年的“船票”?

    AIGC产品测评TOP25丨谁能抢到下个十年的“船票”?

    Tech星球(微信ID:tech618) 文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年,李彦宏站在百度联盟峰会的讲台上,向所有人宣布:互联网的下一幕是人工智能。同年,Google 旗下 Dee
  • 元宇宙步入暗夜

    元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 权限风波过后 X2Y2如何挑战OpenSea?

    权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 重温 1602 年:DAO 是新的企业范式吗?

    重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top