当前位置：首页 > 元宇宙 > AI

全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

来源：责编：时间：2025-03-31 11:22:26 236观看

导读 3 月 25 日消息，Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱（François Chollet）共同创立的非营利组织，该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试，旨在衡量领先人工智能模

3 月 25 日消息，Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱（François Chollet）共同创立的非营利组织，该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试，旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高，截至目前，大多数 AI 模型都在该测试中表现不佳。

根据 Arc Prize 排行榜的数据显示，以推理能力著称的 AI 模型，如 OpenAI 的 o1-pro 和 DeepSeek 的 R1，在 ARC-AGI-2 测试中的得分仅为 1% 至 1.3%。而包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理型模型，得分也仅在 1% 左右。

ARC-AGI 测试由一系列类似谜题的问题组成，要求 AI 从一组不同颜色的方块中识别出视觉模式，并生成正确的“答案网格”。这些问题的设计旨在迫使 AI 适应其未曾见过的新问题。为了建立人类基线，Arc Prize 基金会邀请了超过 400 人参加 ARC-AGI-2 测试。平均而言，这些参与者组成的“小组”能够正确回答测试中 60% 的问题，这一成绩远远超过了任何 AI 模型的得分。

Arc-AGI-2 的一个示例问题

在 X 平台上，肖莱表示，ARC-AGI-2 测试比之前的 ARC-AGI-1 测试更能准确衡量 AI 模型的实际智能水平。Arc Prize 基金会的测试旨在评估 AI 系统是否能够在训练数据之外高效地获取新技能。

肖莱指出，与 ARC-AGI-1 不同，新的 ARC-AGI-2 测试防止了 AI 模型依赖“蛮力”—— 即大量的计算能力 —— 来寻找解决方案。他此前曾承认，这是 ARC-AGI-1 的一个主要缺陷。为了弥补这一缺陷，ARC-AGI-2 引入了一个新的指标：效率。它还要求模型实时解读模式，而不是依赖记忆。

“智能不仅仅是解决问题或取得高分的能力，”Arc Prize 基金会联合创始人格雷格・卡姆拉德（Greg Kamradt）在其博客中写道，“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能？’，还包括‘以何种效率或代价？’”

ARC-AGI-1 在大约五年内无人能敌，直到 2024 年 12 月，OpenAI 发布了其先进的推理模型 o3，该模型超越了所有其他 AI 模型，并在评估中达到了人类水平的表现。然而，正如当时所指出的，o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

OpenAI 的 o3 模型（低配版）—— 第一个在 ARC-AGI-1 上取得突破的版本，在该测试中得分高达 75.7%，但在 ARC-AGI-2 测试中，即使使用价值 200 美元的计算能力，其得分也仅为 4%。

ARC-AGI-2 的推出正值科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展之时。Hugging Face 联合创始人托马斯・沃尔夫（Thomas Wolf）最近在接受 TechCrunch 采访时表示，AI 行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质，包括创造力。

与此同时，Arc Prize 基金会还宣布了 2025 年 Arc Prize 竞赛，挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率，同时每项任务的花费不超过 0.42 美元（注：现汇率约合 3 元人民币）。

本文链接：http://www.28at.com/showinfo-45-11772-0.html全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：第二届中国具身智能大会即将举办，将发布具身智能十五大重点方向

下一篇：消息称阿里云开启近年来规模最大的 AI 人才校园招聘

标签：

热门焦点

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

元宇宙的表现形式大多以游戏为起点，并逐渐整合互联网、数字化娱乐、社交网络等功能，长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

在刚刚结束不久的2021年江苏卫视跨年演唱会上，虚拟邓丽君与歌手周深同台联唱，实现了跨时代合作，而这还不只是“邓丽君”，哔哩哔哩、东方卫视等多家跨年晚会都出现
字节跳动，刚刚投了一位虚拟女生

今年第一笔虚拟人融资出炉了。投资界获悉，杭州李未可科技有限公司显示发生股东变更，新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认，本轮
字节、腾讯、网易鏖战元宇宙背后，大厂究竟在争夺什么？

正当互联网商业踌躇不前，互联网大厂为了在存量中的增长挤破头皮之时，元宇宙的概念被资本点燃。先是Facebook更名Meta正式进军元宇宙，然后字节跳动收购了一家VR硬
传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

今日热点：传腾讯已推出全新XR业务；摩托罗拉与Verizon合作打造5G XR颈戴式计算组件；小米AR购物导航专利获授权；VR一体机Simula One放弃众筹并开放直接预订；VR游戏《
区块链产业人才发展报告

工业和信息化部作为工业和信息化行业主管部门，正在着力推进“两个强国”建设，加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
以用户为中心，Web3和区块链如何将用户放在首位

竞争优势正在改变竞争优势是每个企业都在努力争取的，由谷歌、Facebook和Netflix等大型科技公司主导的市场中，两大重要类别的竞争优势十分突出。第一个竞争优势来
NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

当Stefan Prodanovic在13岁时开始尝试平面设计，与一位从事编程工作的学校朋友共同创作数字游戏时，他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣，究竟有何潜力？

Block-810多个区块链吸引了希望创建单个NFT或整个集合的用户的注意。Tezos是其中因其低费用和低碳排放方式而备受赞誉的区块链，就连Snoop Dogg也希望通过公开他

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

字节跳动，刚刚投了一位虚拟女生

字节、腾讯、网易鏖战元宇宙背后，大厂究竟在争夺什么？

传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

区块链产业人才发展报告

以用户为中心，Web3和区块链如何将用户放在首位

NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣，究竟有何潜力？

最新推荐

新周期，谁在坚守窄门？

中国区块链产业生态地图报告（2021）

百度元宇宙希壤是什么？（附下载）

虚拟数字人：元宇宙的主角破圈而来

DAO登上了历史舞台，但是主流准备好采用DAO了吗？

元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

猜你喜欢

热门推荐

相关资讯