当前位置：首页 > 元宇宙 > AI

新研究：人类读指针式时钟准确率达 89.1%，顶尖 AI 仅 13.3%

来源：责编：时间：2025-09-17 11:35:34 136观看

导读 9 月 14 日消息，一项新研究发现，人类读取指针式时钟的准确率可达 89.1%，而目前最优秀的人工智能（AI）模型准确率仅为 13.3%，该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。阿莱克・萨法尔（Alek Saf

9 月 14 日消息，一项新研究发现，人类读取指针式时钟的准确率可达 89.1%，而目前最优秀的人工智能（AI）模型准确率仅为 13.3%，该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。

阿莱克・萨法尔（Alek Safar）采用名为“ClockBench”的全新测试，让来自 6 家企业的 11 个大型语言模型与 5 名人类展开正面较量。该基准测试包含 180 个定制的指针式时钟及 720 道测试题，遵循“人类易上手、AI 难突破”的设计思路，这一思路在 ARC-AGI、SimpleBench 等基准测试中也有所体现。

为确保公平性并避免与模型训练数据重叠，萨法尔从零开始构建了该数据集。数据集包含 36 种独特的钟面设计，融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素。每种设计他都制作了 5 个不同的时钟，总共有 180 个时钟。

每个时钟均通过四类问题进行测试：读取时间、时间计算、按特定角度调整指针，以及时区转换。萨法尔根据时钟类型设置了不同的误差允许范围，例如，仅含时针的时钟比同时具备时针、分针、秒针的时钟误差容忍度更高。

萨法尔表示，相较于“人类终极测试”（Humanity's Last Exam）这类侧重知识储备的测试，ClockBench 对 AI 模型的难度更高。测试结果表明，即便面对看似简单的视觉任务，AI 与人类的差距仍十分显著。

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的准确率位居榜首，Gemini 2.5 Flash 紧随其后，准确率为 10.5%。GPT-5 排名第三，准确率 8.4%，且调整模型的推理预算对提升准确率效果甚微。

Grok 4 模型表现垫底，准确率仅 0.7%，这一结果颇为出人意料，因为该模型在其他基准测试中常常表现出色。Grok 4 将 63.3% 的时钟判定为“无效”，但实际上 180 个时钟中仅 37 个显示的是“不可能时间”。这种极度谨慎的方式意味着，从技术层面来讲，Grok 4 的正确答案数量最多，但这只是通过随机将时钟标记为无效实现的。

Anthropic 公司的 Claude 4 Sonnet（准确率 4.2%）与 Claude 4.1 Opus（准确率 5.6%）表现同样不佳。研究还发现，61.7% 的时钟未能被任何一个 AI 模型正确读取。

相较于准确率，误差的严重程度更能反映问题本质。人类读取时间的中位误差仅为 3 分钟，而表现最佳的 AI 模型中位误差达 1 小时，性能最差的 AI 模型误差约为 3 小时，对于 12 小时制时钟而言，这几乎和随机猜测差不多。

注意到，部分钟面特征对 AI 而言难度极高：当钟面采用罗马数字时，AI 准确率降至 3.2%；采用圆形数字时，准确率仅为 4.5%。此外，秒针、彩色背景及镜像布局也会对 AI 的判断造成干扰。

仅含时针的时钟对 AI 而言相对容易（准确率 23.6%），这得益于其更高的误差容忍度。采用阿拉伯数字和基础表盘的标准时钟，也能让 AI 取得相对更好的成绩。

测试还获得了一个意外发现：当 AI 模型成功读取时间后，它们在时间计算、指针调整或时区转换任务中几乎都能得出正确结果。这意味着，AI 面临的挑战并非“进行时间相关的数学运算”，而是“从视觉信息中读取时间”这一初始步骤。

萨法尔认为，背后原因可能有三点：其一，读取指针式时钟对视觉推理能力是一项严峻考验；其二，罕见或特殊的钟面设计在训练数据中出现频率极低；其三，将钟面视觉信息转化为文字描述，对当前 AI 模型而言很可能是一项难题。

ClockBench 被定位为一项长期基准测试。其完整数据集目前处于保密状态，以避免污染未来 AI 的训练过程，但已有一个规模较小的公开版本可供测试使用。

尽管 AI 在该测试中的得分普遍较低，萨法尔仍看到了希望：性能最佳的模型表现优于随机猜测，且展现出基础的视觉推理能力。不过，这些能力能否通过“扩大现有方法规模”得到提升，还是需要全新技术路径来突破，目前仍是一个待解的问题。

一年前，中国一项研究也曾发现多模态语言模型存在类似的能力短板，但当时的结果要好得多。彼时，GPT-4o 模型在包含“读时钟、读仪表”的仪表盘任务中，准确率达到 54.8%。而此次 ClockBench 测试中，AI 的最高准确率仅为 13.3%，这一差距既表明新基准测试难度显著提升，也反映出 AI 的时钟读取能力并未取得明显进步。

本文链接：http://www.28at.com/showinfo-45-27648-0.html新研究：人类读指针式时钟准确率达 89.1%，顶尖 AI 仅 13.3%

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI GPT-5 拥有博士级能力？谷歌 DeepMind CEO：无稽之谈

下一篇：科学家发现 AI 能像人类一样评估社交情境，科研效率远超人工

标签：

热门焦点

数字人的新革命，BAT的“冲高”战场

来源：刘旷ChatGPT横空出世，让人们看到了数字人的另一种可能，将ChatGPT与虚拟数字人融合，研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份，岭南股份
保时捷推出虚拟超跑，车企元宇宙营销这么香？

保时捷又出超跑了，不过这次不是在现实世界，而是在虚拟世界。这款Vision Gran Turismo概念车，由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造，将于202
米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

今日热点：苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成；VR/AR老牌企业当红齐天完成B轮+融资；米哈游推出元宇宙品牌HoYoverse；国产VR射击游戏《Contra
Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

上周，外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项，暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中，Meta Reali
NFT自动售货机来啦！

“纽约市有一台售卖 Solana NFT 的自动售货机，用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT，无需使用加密货币。由于基于 Solana 链的 N
独立故事片“Calladita”将使用 NFT 筹集资金

导演 Miguel Faus 正在转向加密来资助他的处女作，由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”（导演 Miguel Faus）。图片：米格尔·福斯在过去的一年
融资千万美元的元宇宙平台UGC到底是什么？

据获悉，全球化元宇宙社交平台BUD Technologies, Inc.（以下简称“BUD”）宣布完成1500万美元A+轮融资，本轮融资由启明创投领投，老股东源码资本、GGV纪源资本、云九资
知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

根据市场追踪网站 DappRadar 的数据，随着 NFT 的“出圈”与加密货币的普及，NFT 市场在 2021 年的销售额达到约 250 亿美元，而 2020 年仅为 9490 万美元，同比增超 2
2022年元宇宙系列报告：UGC当道，XR带来新交互体验

UGC作为元宇宙的主要内容创作模式，已经越来越多的呈现于游戏、娱乐、社交、传媒等方面，UGC模式勾勒了元宇宙的边界，现今元宇宙UGC模式的主要呈现方式以元宇宙概念

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

新研究：人类读指针式时钟准确率达 89.1%，顶尖 AI 仅 13.3%

数字人的新革命，BAT的“冲高”战场

保时捷推出虚拟超跑，车企元宇宙营销这么香？

米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

NFT自动售货机来啦！

独立故事片“Calladita”将使用 NFT 筹集资金

融资千万美元的元宇宙平台UGC到底是什么？

知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

最新推荐

元宇宙的文旅赛道，还能如何发力？

搭上“谷爱凌”，“柳夜熙们”站上风口？

顶流IP“冰墩墩”带着中国元素NFT进入全球视野

NFT Insider #47：YGG发布2021Q4社区报告，GameFi领域1月份获超10亿美元融资

纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

NFT高玩必备：NFT分析工具大盘点

猜你喜欢

热门推荐

相关资讯