当前位置:首页 > 元宇宙 > AI

“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%

来源: 责编: 时间:2025-01-27 09:27:02 126观看
导读 1 月 24 日消息,非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。

1 月 24 日消息,非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。VWT28资讯网——每日最新资讯28at.com

VWT28资讯网——每日最新资讯28at.com

据了解,该基准测试包含来自50个国家 / 地区500多个机构的近1,000名学科专家撰稿人提出问题,这些专家主要由教授、研究人员和研究生学位持有者组成,涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性,题目形式多样,包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。VWT28资讯网——每日最新资讯28at.com

在初步研究中,所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明,尽管当前 AI 技术在特定领域已取得显著进展,但在应对复杂、综合性的问题时仍存在明显短板。VWT28资讯网——每日最新资讯28at.com

VWT28资讯网——每日最新资讯28at.com

VWT28资讯网——每日最新资讯28at.com

CAIS 和 Scale AI 表示,他们计划将这一基准测试向研究社区开放,以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。VWT28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10176-0.html“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 首个智能体 Operator 测评,你也能拥有 24 小时私人管家

下一篇: Anthropic 发布 Citations API,迎战 AI 信息来源验证挑战

标签:
  • 热门焦点
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • 这场虚拟人争夺战,互联网巨头下场先赢一半?

    撰文/ 孟会缘 近两年间,要论引得无数互联网巨头竞折腰的一大热门产业,莫过于元宇宙领域中的数字人了。 作为继数字藏品之后,开发元宇宙的又一重点落地项目,互联网
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • Meta、谷歌、微软竞相涌入元宇宙,小型企业该如何伺机而动?

    目前来看元宇宙不会影响到小型企业的发展,但在接下来的十年内可能会发生很多变化。很多有商业头脑的企业家都在密切关注着元宇宙的发展。元宇宙这个词,你一定或
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • 爆发在即的Layer2赛道百花齐放,谁将是领跑者?

    还记得几年前最早我们提起ETH扩容,首先想到就是Layer2,而Layer2里,首先想到的是闪电网络,状态通道,Plasma…然后折腾了几年,发现并没有什么用,许多项目方和资本也等不
Top