当前位置：首页 > 元宇宙 > AI

OpenAI o1模型实测：PlanBench规划能力，准确率高达97.8%！

来源：责编：时间：2024-09-25 16:50:30 203观看

导读【ITBEAR】9月25日消息，近日，亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示，尽管o1模型在某些方面取得了显著的进步，但其仍然存在较大的局限性。PlanBench基准于2022

【ITBEAR】9月25日消息，近日，亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示，尽管o1模型在某些方面取得了显著的进步，但其仍然存在较大的局限性。

PlanBench基准于2022年开发，主要用于评估人工智能系统在规划方面的能力。该基准包含了600个来自Blocksworld领域的任务，要求积木必须按照特定的顺序进行堆叠。

据ITBEAR了解，在Blocksworld任务中，OpenAI的o1模型展现出了惊人的表现，其准确率高达97.8%，远远超过了之前的最佳语言模型LLaMA 3.1 405B的62.6%。在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而o1模型的准确率仍能达到52.8%。

为了验证o1模型的性能是否源于其训练集中的基准数据，研究人员还测试了一种新的随机变体。在这次测试中，o1模型的准确率降至37.3%，但仍远超其他得分接近零的模型。

然而，随着任务的复杂性增加，o1模型的表现也急剧下降。在需要20到40个规划步骤的问题上，o1模型在较简单测试中的准确率从97.8%骤降至23.63%。此外，该模型在识别无法解决的任务方面也显得力不从心，只有27%的时间能够正确识别，而在54%的情况下，它错误地生成了完整但不可能完成的计划。

尽管o1模型在基准性能上实现了显著的改进，但它并不能保证解决方案的正确性。与经典的规划算法相比，如快速向下算法，这些算法可以在更短的计算时间内实现完美的准确性。

研究还指出，o1模型的高资源消耗是一个不容忽视的问题。运行这些测试需要花费近1900美元，而经典算法在标准计算机上运行则几乎不需要任何成本。

研究人员强调，对人工智能系统进行公平比较时，必须综合考虑准确性、效率、成本和可靠性。他们的研究结果表明，尽管像o1这样的人工智能模型在复杂推理任务方面取得了进步，但这些能力仍然有待提升。

关键词：#OpenAI o1模型# #规划能力测试# #PlanBench基准# #局限性# #资源消耗#

本文链接：http://www.28at.com/showinfo-45-7677-0.htmlOpenAI o1模型实测：PlanBench规划能力，准确率高达97.8%！

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：明年4月，半价iPhone登场？搭载最新芯片引关注！

下一篇：百度百舸AI计算平台4.0发布，模型训练效率逼近极限？

标签：

热门焦点

VR/AR迷失元宇宙“硝烟”

不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵，又随着元宇宙回归平静。1月份，微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员，其中负责混合现实硬件（MR）的Holo
“啫喱”超越微信登顶：首款“元宇宙社交App”会昙花一现吗？

作者| 赤木瓶子如何终结“昙花一现”的命运，是潮流社交产品的长期命题，如今，在元宇宙浪潮的洗礼下，这一命题正在迎来新的可能性。近段时间，一款名为“啫喱”的社交A
冰墩墩NFT遇冷，价格跌80%，日成交仅3笔。

“两日上涨千倍”并不存在，且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日，获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
好莱坞：一股新的电影制作加密浪潮将颠覆这个行业

在Moviecoin.com平台上，有一部电影设定了一个前所未有的目标，即通过预售NFT获得100%的全额融资，这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》，
过去女性在互联网领域是半边天，在Web3，将会是整片天！

Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中，如果女性在创造性方面发挥更大的作用，可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
冬奥会数字收藏品升温，市场再现“一墩难求”

根据公开信息显示，国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售，总数为500个，每个99美元，每人限购5个。此外，不同的奥运徽章数字藏
元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+DEFI（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开
电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

元宇宙听起来像不像是科幻小说中出现的术语？事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙，它能够模
爆发在即的Layer2赛道百花齐放，谁将是领跑者？

还记得几年前最早我们提起ETH扩容，首先想到就是Layer2，而Layer2里，首先想到的是闪电网络，状态通道，Plasma…然后折腾了几年，发现并没有什么用，许多项目方和资本也等不

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

OpenAI o1模型实测：PlanBench规划能力，准确率高达97.8%！

VR/AR迷失元宇宙“硝烟”

“啫喱”超越微信登顶：首款“元宇宙社交App”会昙花一现吗？

冰墩墩NFT遇冷，价格跌80%，日成交仅3笔。

好莱坞：一股新的电影制作加密浪潮将颠覆这个行业

过去女性在互联网领域是半边天，在Web3，将会是整片天！

冬奥会数字收藏品升温，市场再现“一墩难求”

元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

爆发在即的Layer2赛道百花齐放，谁将是领跑者？

最新推荐

AI特效、虚拟人、数字盲盒，来看看元宇宙如何融合冬奥会！

解决NFT流动性问题：一文了解Floor DAO

这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

如何在元宇宙中建立品牌忠诚度

元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

浅聊DAO图景和未来

猜你喜欢

热门推荐

相关资讯