当前位置:首页 > 元宇宙 > AI

OpenAI o1模型实测:PlanBench规划能力,准确率高达97.8%!

来源: 责编: 时间:2024-09-25 16:50:30 195观看
导读【ITBEAR】9月25日消息,近日,亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示,尽管o1模型在某些方面取得了显著的进步,但其仍然存在较大的局限性。PlanBench基准于2022

【ITBEAR】9月25日消息,近日,亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示,尽管o1模型在某些方面取得了显著的进步,但其仍然存在较大的局限性。MB028资讯网——每日最新资讯28at.com

PlanBench基准于2022年开发,主要用于评估人工智能系统在规划方面的能力。该基准包含了600个来自Blocksworld领域的任务,要求积木必须按照特定的顺序进行堆叠。MB028资讯网——每日最新资讯28at.com

据ITBEAR了解,在Blocksworld任务中,OpenAI的o1模型展现出了惊人的表现,其准确率高达97.8%,远远超过了之前的最佳语言模型LLaMA 3.1 405B的62.6%。在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而o1模型的准确率仍能达到52.8%。MB028资讯网——每日最新资讯28at.com

为了验证o1模型的性能是否源于其训练集中的基准数据,研究人员还测试了一种新的随机变体。在这次测试中,o1模型的准确率降至37.3%,但仍远超其他得分接近零的模型。MB028资讯网——每日最新资讯28at.com

然而,随着任务的复杂性增加,o1模型的表现也急剧下降。在需要20到40个规划步骤的问题上,o1模型在较简单测试中的准确率从97.8%骤降至23.63%。此外,该模型在识别无法解决的任务方面也显得力不从心,只有27%的时间能够正确识别,而在54%的情况下,它错误地生成了完整但不可能完成的计划。MB028资讯网——每日最新资讯28at.com

尽管o1模型在基准性能上实现了显著的改进,但它并不能保证解决方案的正确性。与经典的规划算法相比,如快速向下算法,这些算法可以在更短的计算时间内实现完美的准确性。MB028资讯网——每日最新资讯28at.com

研究还指出,o1模型的高资源消耗是一个不容忽视的问题。运行这些测试需要花费近1900美元,而经典算法在标准计算机上运行则几乎不需要任何成本。MB028资讯网——每日最新资讯28at.com

研究人员强调,对人工智能系统进行公平比较时,必须综合考虑准确性、效率、成本和可靠性。他们的研究结果表明,尽管像o1这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力仍然有待提升。MB028资讯网——每日最新资讯28at.com

关键词:#OpenAI o1模型# #规划能力测试# #PlanBench基准# #局限性# #资源消耗#MB028资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7677-0.htmlOpenAI o1模型实测:PlanBench规划能力,准确率高达97.8%!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 明年4月,半价iPhone登场?搭载最新芯片引关注!

下一篇: 百度百舸AI计算平台4.0发布,模型训练效率逼近极限?

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 花房集团上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集团在港交所成功上市,首日便受到追捧,当日最高涨幅达28.75%。继360、360数科、鲁大师后,这是“红衣教主”周
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • NFT 技术将传世之作带入博物馆

    意大利四大博物馆已与一个项目合作,该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了 科技公司Cincello的国际专
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • 独立故事片“Calladita”将使用 NFT 筹集资金

    导演 Miguel Faus 正在转向加密来资助他的处女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(导演 Miguel Faus)。图片:米格尔·福斯在过去的一年
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
Top