当前位置：首页 > 元宇宙 > AI

新研究：人类读指针钟准确率近九成，顶尖AI模型准确率仅一成多

来源：责编：时间：2025-09-15 11:51:32 130观看

导读一项名为“ClockBench”的全新测试揭示，人类在读取指针式时钟方面的准确率高达89.1%，而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异，尤其是在处理复杂视觉信息时，AI的表

一项名为“ClockBench”的全新测试揭示，人类在读取指针式时钟方面的准确率高达89.1%，而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异，尤其是在处理复杂视觉信息时，AI的表现远未达到预期水平。

该测试由研究者阿莱克·萨法尔设计，旨在通过定制化的指针式时钟数据集，评估AI在视觉推理任务中的表现。测试中，来自6家企业的11个大型语言模型与5名人类参与者展开对比。数据集包含180个独特的指针式时钟，涵盖36种钟面设计，融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素，确保测试的复杂性和多样性。

每个时钟需通过四类问题测试：读取时间、时间计算、按特定角度调整指针及时区转换。为保证公平性，数据集从零构建，避免与模型训练数据重叠。测试结果显示，AI模型在读取时间时的中位误差达1小时，而人类的中位误差仅为3分钟。性能最差的AI模型误差甚至接近3小时，几乎与随机猜测无异。

在参与测试的AI模型中，谷歌旗下的Gemini 2.5 Pro以13.3%的准确率位居榜首，Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%的准确率紧随其后。然而，Grok 4模型的表现令人意外，其准确率仅0.7%，且将63.3%的时钟判定为“无效”，远高于实际无效时钟的比例（180个中仅37个）。这种过度谨慎的策略虽在技术上增加了正确答案数量，但并未真正提升模型能力。

测试还发现，钟面特征对AI判断影响显著。当钟面采用罗马数字时，AI准确率骤降至3.2%；采用圆形数字时，准确率也仅为4.5%。秒针、彩色背景及镜像布局均会干扰AI的判断。相比之下，仅含时针的时钟（准确率23.6%）和采用阿拉伯数字的标准时钟，能让AI取得相对更好的成绩。

一个意外发现是，AI模型在成功读取时间后，能正确完成时间计算、指针调整或时区转换任务。这表明，AI的挑战并非在于时间相关的数学运算，而在于从视觉信息中提取时间的初始步骤。萨法尔分析，原因可能包括：指针式时钟读取对视觉推理能力要求极高；罕见或特殊的钟面设计在训练数据中极少出现；以及将视觉信息转化为文字描述对当前AI模型而言难度较大。

ClockBench被定位为长期基准测试，其完整数据集目前保密，以避免污染未来AI的训练过程，但已有一个公开版本供测试使用。尽管AI在该测试中得分普遍较低，萨法尔认为，性能最佳的模型已展现出基础的视觉推理能力，优于随机猜测。然而，这些能力能否通过扩大现有方法规模提升，还是需要全新技术路径突破，仍是一个待解的问题。

此前，中国一项研究也曾发现多模态语言模型存在类似短板，但当时GPT-4o模型在包含“读时钟、读仪表”的任务中准确率达54.8%。此次ClockBench测试中，AI最高准确率仅为13.3%，既表明新基准测试难度显著提升，也反映出AI在时钟读取能力上并未取得明显进步。

更多>同类资讯OpenAI未来六年算力与研发投入或达3500亿美元，2030年盈利稳定性存疑09-14

海马emoji是否存在？ChatGPT等AI深陷“记忆迷局”反复纠错难自明09-14

蚂蚁开源联合Inclusion AI发布大模型生态全景图，呈现AI开源新特征与三大开发趋势09-14

OpenAI称GPT-5有博士级能力，谷歌DeepMind CEO：尚缺全面博士能力，AGI或需5到10年09-14

缺钱仍具洞察：陶哲轩直指AI在数学研究中隐性目标被忽视之困09-14谷歌DeepMind CEO：当前AI系统难达博士级，GPT-5综合能力被指差距大09-14OpenAI 2024-2030年拟投巨资：算力租赁与研发成本高企，盈利前景存疑09-14

岳麓大会十二年：从“闭门论道”到“链上生长”，湖南数字生态如何崛起？09-14谷歌DeepMind CEO：当前AI系统难达博士级，GPT-5能力被指夸大09-14

新学期新气象！北京1400余所中小学全学段开设人工智能通识课09-14

宇树王兴兴福耀科大开讲：AI时代机遇均等，新生当怀热忱逐梦前行09-14

蚂蚁开源2025外滩大会发布大模型全景图，AI开发现三大趋势：工具、路线与生态分化月 13 日，在 2025 Inclusion·外滩大会AI开源见解论坛上，蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。本次发布的大模型开源开发生态全景图共收录了…09-14

对话京东方陈炎顺：AI驱动产业升级，未来三年500亿研发携手伙伴共拓新局“早在2024年初，京东方就将AI提高到了企业的整体发展战略”，陈炎顺对作者表示，“一方面我们成立了AI+创新与应用委员会，要求以营业收入的0.5%来用于AI的研发。陈炎顺指出，从CES到SID等国际展会上…09-14

OpenAI奥尔特曼坦言：ChatGPT问世后，模型细微调整牵动数亿人思维行为致其难眠9月14日消息，据《财富》报道，OpenAI CEO 萨姆·奥尔特曼在接受采访时表示，“自从 ChatGPT 推出以来，我就没睡过一个好觉。” 奥尔特曼描述了监管这项如今每天有数亿人使用的技术的压力，他担忧的…09-14

上海创智学院：90后导师领航博士CEO逐梦机器人奇境挑战未来2023年，刘鹏飞完成美国博后工作回国加盟上海交通大学，去年以双聘的形式加盟创智学院，他深深感受时代的机遇正在眼前——“三个低概率事件”交汇：智能革命的发生、创智学院模式的独一无二，学院对师生资源的倾斜。就…09-14点击查看更多 +全站最新 鸿蒙智行MPV新车谍照现身智界品牌或迎新成员明年上半年有望上市

鸿蒙智行MPV新车谍照现身智界品牌或迎新成员明年上半年有望上市

岳麓大会十二年：从“闭门论道”到“链上生长”，湖南数字生态如何崛起？

抖音图文创作新思路：精选素材+用心运营，轻松开启自媒体变现路！

方形CMOS加持！iPhone 17前置摄像头如何打破自拍构图限制？

杭州全球农创客大赛落幕：AI养猪、超滤净水，青年科技绘就农业新蓝图

亿级卖家吞吞揭秘：TikTok美区直播如何选渠道、控成本、定布局？热门内容

热度攀升！千亿科技龙头频获机构调研，业务增长透露哪些行业新动向？
苹果加速AI布局，或收购两家法国AI初创企业
DeepSeek V3.1大模型升级，适配国产新芯片，性能显著提升
苹果秋季发布会亮相iPhone 17系列："史上最薄"Air登场，Pro Max 2TB版定价17999元
小米16系列或提前登场，首发骁龙8 Elite Gen5，9月机圈大战一触即发
苹果AI布局加速，或将斥巨资收购欧洲两大AI初创企业
红米Note15系列前瞻：7s芯片、7000mAh大电池，防水新标杆即将登场
华为智能手表登顶全球，苹果需直面挑战求变革
科创板AI基金8月22日净值飙升7.79%，重仓股表现抢眼
vivo X300系列新机入网：首发LYT-828+2亿像素，卫通版支持北斗卫星短信
‍字节跳动千人芯片团队架构调整，转至新加坡子公司Picoheart引关注‍
苹果加速布局中国市场！Apple Intelligence和新版Siri或年底至明年上线
OpenAI冲刺5000亿估值，GPT-5遇冷：资本狂欢与技术瓶颈的碰撞
华为云重组风暴：多部门整合，聚焦AI领域引发关注
科大讯飞2026秋招启动，毕业两年内可投，多样岗位等你来选！

本栏最新

岳麓大会十二年：从“闭门论道”到“链上生长”，湖南数字生态如何崛起？

新学期新气象！北京1400余所中小学全学段开设人工智能通识课

宇树王兴兴福耀科大开讲：AI时代机遇均等，新生当怀热忱逐梦前行

蚂蚁开源2025外滩大会发布大模型全景图，AI开发现三大趋势：工具、路线与生态分化

对话京东方陈炎顺：AI驱动产业升级，未来三年500亿研发携手伙伴共拓新局

OpenAI奥尔特曼坦言：ChatGPT问世后，模型细微调整牵动数亿人思维行为致其难眠

本文链接：http://www.28at.com/showinfo-45-27565-0.html新研究：人类读指针钟准确率近九成，顶尖AI模型准确率仅一成多

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：美国最大出版商CEO控诉谷歌：用单一爬虫抓内容助力AI，却让出版商陷入困境

下一篇： OpenAI未来六年算力与研发投入或达3500亿美元，2030年盈利稳定性存疑

标签：

热门焦点

25万虚拟er在“元宇宙”追星

“默叽默叽，我是默默酱，我是在真元宇宙也有头有脸的人。”12月11日晚20：00，虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马，抵达繁星》在大有空间APP
智能人机交互技术的春晚大考

1月初的一个早晨，京东智能客户服务产品部紧急开会，进行关于尚未对外公布的“X项目”的初讨论。1月5日，这个神秘的X项目对外公布，京东成为央视2022年春晚独家互动合
数字经济、数据要素与数字治理

深入理解数字经济与数据要素，有利于更准确理解和把握数字治理的基本规律，构建面向未来的健康的数字治理体系，也才能更好地理解元宇宙的治理框架。一、数字经济
音乐NFT平台里的下一匹黑马是谁？

NFT 销售额在 2021 年开始暴涨，从 2018 年的仅 4069 万美元的交易量，到 2021 年，NFT 交易量飙升至 442 亿美元以上，并不断刷新记录并达到新的高度。预测到2025 年N
以用户为中心，Web3和区块链如何将用户放在首位

竞争优势正在改变竞争优势是每个企业都在努力争取的，由谷歌、Facebook和Netflix等大型科技公司主导的市场中，两大重要类别的竞争优势十分突出。第一个竞争优势来
为什么元宇宙将永远改变体育和你的生活？

自从Facebook更名为Meta以来，Metaverse这个词已经被大家所熟知。但是当Metaverse仍然被许多人视为一个虚拟的平行世界时，一些项目已经显示出Metaverse将如何永远
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装
从NFT数字收藏，洞察数字音乐版权市场发展趋势

去年8月9日，腾讯音乐布局NFT数字收藏，在腾讯应用宝发布幻核app，腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
Ceramic：为Web3.0社交应用打造的中间件

大家关注老雅痞公众号这么久，对Web3的概念不陌生吧？让我们做一个简短的回顾，Web3主要被描述为去中心化的网络，旨在实现无服务器、去中心化的互联网，即用户掌握自己

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

新研究：人类读指针钟准确率近九成，顶尖AI模型准确率仅一成多

25万虚拟er在“元宇宙”追星

智能人机交互技术的春晚大考

数字经济、数据要素与数字治理

音乐NFT平台里的下一匹黑马是谁？

以用户为中心，Web3和区块链如何将用户放在首位

为什么元宇宙将永远改变体育和你的生活？

元宇宙收割了谁

从NFT数字收藏，洞察数字音乐版权市场发展趋势

Ceramic：为Web3.0社交应用打造的中间件

最新推荐

在元宇宙卖酸奶，这波联动燃爆了！

林俊杰、余文乐等明星相继入局，元宇宙虚拟土地究竟有何魔力？

传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

猜你喜欢

热门推荐

相关资讯