当前位置:首页 > 元宇宙 > AI

新研究:人类读指针钟准确率近九成,顶尖AI模型准确率仅一成多

来源: 责编: 时间:2025-09-15 11:51:32 64观看
导读一项名为“ClockBench”的全新测试揭示,人类在读取指针式时钟方面的准确率高达89.1%,而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异,尤其是在处理复杂视觉信息时,AI的表

一项名为“ClockBench”的全新测试揭示,人类在读取指针式时钟方面的准确率高达89.1%,而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异,尤其是在处理复杂视觉信息时,AI的表现远未达到预期水平。twA28资讯网——每日最新资讯28at.com

twA28资讯网——每日最新资讯28at.com

该测试由研究者阿莱克·萨法尔设计,旨在通过定制化的指针式时钟数据集,评估AI在视觉推理任务中的表现。测试中,来自6家企业的11个大型语言模型与5名人类参与者展开对比。数据集包含180个独特的指针式时钟,涵盖36种钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素,确保测试的复杂性和多样性。twA28资讯网——每日最新资讯28at.com

每个时钟需通过四类问题测试:读取时间、时间计算、按特定角度调整指针及时区转换。为保证公平性,数据集从零构建,避免与模型训练数据重叠。测试结果显示,AI模型在读取时间时的中位误差达1小时,而人类的中位误差仅为3分钟。性能最差的AI模型误差甚至接近3小时,几乎与随机猜测无异。twA28资讯网——每日最新资讯28at.com

在参与测试的AI模型中,谷歌旗下的Gemini 2.5 Pro以13.3%的准确率位居榜首,Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%的准确率紧随其后。然而,Grok 4模型的表现令人意外,其准确率仅0.7%,且将63.3%的时钟判定为“无效”,远高于实际无效时钟的比例(180个中仅37个)。这种过度谨慎的策略虽在技术上增加了正确答案数量,但并未真正提升模型能力。twA28资讯网——每日最新资讯28at.com

twA28资讯网——每日最新资讯28at.com

测试还发现,钟面特征对AI判断影响显著。当钟面采用罗马数字时,AI准确率骤降至3.2%;采用圆形数字时,准确率也仅为4.5%。秒针、彩色背景及镜像布局均会干扰AI的判断。相比之下,仅含时针的时钟(准确率23.6%)和采用阿拉伯数字的标准时钟,能让AI取得相对更好的成绩。twA28资讯网——每日最新资讯28at.com

一个意外发现是,AI模型在成功读取时间后,能正确完成时间计算、指针调整或时区转换任务。这表明,AI的挑战并非在于时间相关的数学运算,而在于从视觉信息中提取时间的初始步骤。萨法尔分析,原因可能包括:指针式时钟读取对视觉推理能力要求极高;罕见或特殊的钟面设计在训练数据中极少出现;以及将视觉信息转化为文字描述对当前AI模型而言难度较大。twA28资讯网——每日最新资讯28at.com

ClockBench被定位为长期基准测试,其完整数据集目前保密,以避免污染未来AI的训练过程,但已有一个公开版本供测试使用。尽管AI在该测试中得分普遍较低,萨法尔认为,性能最佳的模型已展现出基础的视觉推理能力,优于随机猜测。然而,这些能力能否通过扩大现有方法规模提升,还是需要全新技术路径突破,仍是一个待解的问题。twA28资讯网——每日最新资讯28at.com

此前,中国一项研究也曾发现多模态语言模型存在类似短板,但当时GPT-4o模型在包含“读时钟、读仪表”的任务中准确率达54.8%。此次ClockBench测试中,AI最高准确率仅为13.3%,既表明新基准测试难度显著提升,也反映出AI在时钟读取能力上并未取得明显进步。twA28资讯网——每日最新资讯28at.com

   更多>同类资讯​OpenAI未来六年算力与研发投入或达3500亿美元,2030年盈利稳定性存疑​09-14海马emoji是否存在?ChatGPT等AI深陷“记忆迷局”反复纠错难自明09-14蚂蚁开源联合Inclusion AI发布大模型生态全景图,呈现AI开源新特征与三大开发趋势09-14OpenAI称GPT-5有博士级能力,谷歌DeepMind CEO:尚缺全面博士能力,AGI或需5到10年09-14缺钱仍具洞察:陶哲轩直指AI在数学研究中隐性目标被忽视之困09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5综合能力被指差距大09-14OpenAI 2024-2030年拟投巨资:算力租赁与研发成本高企,盈利前景存疑09-14岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5能力被指夸大09-14新学期新气象!北京1400余所中小学全学段开设人工智能通识课09-14宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行09-14蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化月 13 日,在 2025 Inclusion·外滩大会AI开源见解论坛上,蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。本次发布的大模型开源开发生态全景图共收录了…09-14​对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局​“早在2024年初,京东方就将AI提高到了企业的整体发展战略”,陈炎顺对作者表示,“一方面我们成立了AI+创新与应用委员会,要求以营业收入的0.5%来用于AI的研发。 陈炎顺指出,从CES到SID等国际展会上…09-14OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠9月14日消息,据《财富》报道,OpenAI CEO 萨姆·奥尔特曼在接受采访时表示,“自从 ChatGPT 推出以来,我就没睡过一个好觉。” 奥尔特曼描述了监管这项如今每天有数亿人使用的技术的压力,他担忧的…09-14上海创智学院:90后导师领航 博士CEO逐梦 机器人奇境挑战未来2023年,刘鹏飞完成美国博后工作回国加盟上海交通大学,去年以双聘的形式加盟创智学院,他深深感受时代的机遇正在眼前——“三个低概率事件”交汇:智能革命的发生、创智学院模式的独一无二,学院对师生资源的倾斜。就…09-14点击查看更多 +全站最新鸿蒙智行MPV新车谍照现身 智界品牌或迎新成员 明年上半年有望上市鸿蒙智行MPV新车谍照现身 智界品牌或迎新成员 明年上半年有望上市岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?抖音图文创作新思路:精选素材+用心运营,轻松开启自媒体变现路!抖音图文创作新思路:精选素材+用心运营,轻松开启自媒体变现路!方形CMOS加持!iPhone 17前置摄像头如何打破自拍构图限制?方形CMOS加持!iPhone 17前置摄像头如何打破自拍构图限制?​杭州全球农创客大赛落幕:AI养猪、超滤净水,青年科技绘就农业新蓝图​​杭州全球农创客大赛落幕:AI养猪、超滤净水,青年科技绘就农业新蓝图​亿级卖家吞吞揭秘:TikTok美区直播如何选渠道、控成本、定布局?亿级卖家吞吞揭秘:TikTok美区直播如何选渠道、控成本、定布局?热门内容
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果加速AI布局,或收购两家法国AI初创企业
  • DeepSeek V3.1大模型升级,适配国产新芯片,性能显著提升
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 苹果AI布局加速,或将斥巨资收购欧洲两大AI初创企业
  • 红米Note15系列前瞻:7s芯片、7000mAh大电池,防水新标杆即将登场
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • 科创板AI基金8月22日净值飙升7.79%,重仓股表现抢眼
  • vivo X300系列新机入网:首发LYT-828+2亿像素,卫通版支持北斗卫星短信
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • OpenAI冲刺5000亿估值,GPT-5遇冷:资本狂欢与技术瓶颈的碰撞
  • 华为云重组风暴:多部门整合,聚焦AI领域引发关注
  • 科大讯飞2026秋招启动,毕业两年内可投,多样岗位等你来选!
本栏最新岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?新学期新气象!北京1400余所中小学全学段开设人工智能通识课新学期新气象!北京1400余所中小学全学段开设人工智能通识课宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化​对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局​​对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局​OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠

本文链接:http://www.28at.com/showinfo-45-27565-0.html新研究:人类读指针钟准确率近九成,顶尖AI模型准确率仅一成多

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 美国最大出版商CEO控诉谷歌:用单一爬虫抓内容助力AI,却让出版商陷入困境

下一篇: ​OpenAI未来六年算力与研发投入或达3500亿美元,2030年盈利稳定性存疑​

标签:
  • 热门焦点
  • 清华、北大等86所高校布局元宇宙,是风口还是噱头?

    作者:徐赐豪来源:区块链日报据全国高校人工智能与大数据创新联盟元宇宙专委会不完全统计,截至2023年7月,全国共有86所高校战略布局元宇宙领域,其中本科院校73所,高职专科院校13所
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

    虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术门槛相对降低,成本有所回落;资本热度上升,受Metav
  • 比特币的价格越高,使用价值越大

    隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势,但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下,彰显着市场活跃度的
  • 百度元宇宙希壤是什么?(附下载)

    百度元宇宙希壤是什么,最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入?今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
  • 费城艺术家使用区块链,在数字艺术中狠狠捞一笔

    ‍你也想赚钱发财走上人生巅峰吗?老雅痞给你指条路,现在也许是时候创建或购买或出售 NFT的好时机。费城地区的许多企业家都在这样做。但投资需谨慎,入行有风险,在
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
Top