当前位置:首页 > 元宇宙 > AI

OpenAI o1模型实测:PlanBench规划能力,准确率高达97.8%!

来源: 责编: 时间:2024-09-25 16:50:30 168观看
导读【ITBEAR】9月25日消息,近日,亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示,尽管o1模型在某些方面取得了显著的进步,但其仍然存在较大的局限性。PlanBench基准于2022

【ITBEAR】9月25日消息,近日,亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示,尽管o1模型在某些方面取得了显著的进步,但其仍然存在较大的局限性。Kmg28资讯网——每日最新资讯28at.com

PlanBench基准于2022年开发,主要用于评估人工智能系统在规划方面的能力。该基准包含了600个来自Blocksworld领域的任务,要求积木必须按照特定的顺序进行堆叠。Kmg28资讯网——每日最新资讯28at.com

据ITBEAR了解,在Blocksworld任务中,OpenAI的o1模型展现出了惊人的表现,其准确率高达97.8%,远远超过了之前的最佳语言模型LLaMA 3.1 405B的62.6%。在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而o1模型的准确率仍能达到52.8%。Kmg28资讯网——每日最新资讯28at.com

为了验证o1模型的性能是否源于其训练集中的基准数据,研究人员还测试了一种新的随机变体。在这次测试中,o1模型的准确率降至37.3%,但仍远超其他得分接近零的模型。Kmg28资讯网——每日最新资讯28at.com

然而,随着任务的复杂性增加,o1模型的表现也急剧下降。在需要20到40个规划步骤的问题上,o1模型在较简单测试中的准确率从97.8%骤降至23.63%。此外,该模型在识别无法解决的任务方面也显得力不从心,只有27%的时间能够正确识别,而在54%的情况下,它错误地生成了完整但不可能完成的计划。Kmg28资讯网——每日最新资讯28at.com

尽管o1模型在基准性能上实现了显著的改进,但它并不能保证解决方案的正确性。与经典的规划算法相比,如快速向下算法,这些算法可以在更短的计算时间内实现完美的准确性。Kmg28资讯网——每日最新资讯28at.com

研究还指出,o1模型的高资源消耗是一个不容忽视的问题。运行这些测试需要花费近1900美元,而经典算法在标准计算机上运行则几乎不需要任何成本。Kmg28资讯网——每日最新资讯28at.com

研究人员强调,对人工智能系统进行公平比较时,必须综合考虑准确性、效率、成本和可靠性。他们的研究结果表明,尽管像o1这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力仍然有待提升。Kmg28资讯网——每日最新资讯28at.com

关键词:#OpenAI o1模型# #规划能力测试# #PlanBench基准# #局限性# #资源消耗#Kmg28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7677-0.htmlOpenAI o1模型实测:PlanBench规划能力,准确率高达97.8%!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 明年4月,半价iPhone登场?搭载最新芯片引关注!

下一篇: 百度百舸AI计算平台4.0发布,模型训练效率逼近极限?

标签:
  • 热门焦点
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 超跑与NFT的首次结合,兰博基尼能否破局?

    兰博基尼公司近日称即将推出它的首款NFT,并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车,并宣布将拍卖与瑞士
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
Top