当前位置:首页 > 科技  > 网络

七大模型全部高考分数出炉:文科能上一本、理科好是二本

来源: 责编: 时间:2024-07-19 07:54:28 448观看
导读 快科技7月18日消息,日前由上海人工智能实验室旗下司南评测体系OpenCompass,对7个AI大模型进行了高考9个科目的全科目测试,从而能全面评测大模型实力。此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、

快科技7月18日消息,日前由上海人工智能实验室旗下司南评测体系OpenCompass,对7个AI大模型进行了高考9个科目的全科目测试,从而能全面评测大模型实力。hNQ28资讯网——每日最新资讯28at.com

此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室&商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。hNQ28资讯网——每日最新资讯28at.com

七大模型全部高考分数出炉:文科能上一本、理科好是二本hNQ28资讯网——每日最新资讯28at.com

以参加高考人数多的河南省分数线作为参考,文科成绩好的AI模型能够达到一本线,而理科成绩好的模型则只能上二本。hNQ28资讯网——每日最新资讯28at.com

七大模型全部高考分数出炉:文科能上一本、理科好是二本hNQ28资讯网——每日最新资讯28at.com

文科状元由阿里通义千问大模型以546分的成绩夺得,而理科状元则是上海人工智能实验室&商汤联合研发的浦语文曲星,得分为468.5分。hNQ28资讯网——每日最新资讯28at.com

OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分为467分,排名第二。hNQ28资讯网——每日最新资讯28at.com

在评测中,AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力,但在理科科目中,数理推理能力普遍存在短板。hNQ28资讯网——每日最新资讯28at.com

特别是在面对带图题目时,得分率仅有37.64%,显示出在图片理解和运用能力方面,所有大模型均存在较大提升空间。hNQ28资讯网——每日最新资讯28at.com

七大模型全部高考分数出炉:文科能上一本、理科好是二本hNQ28资讯网——每日最新资讯28at.com

阅卷老师指出,尽管大模型在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面仍有较大差距。hNQ28资讯网——每日最新资讯28at.com

例如在作答主观题时,大模型常常无法完整理解题干,导致答非所问;在解答数学题时,解题过程机械且逻辑性差。hNQ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-101636-0.html七大模型全部高考分数出炉:文科能上一本、理科好是二本

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 女子带韩国老公回国实现西瓜自由:想把一年的量都吃完再走

下一篇: 巴黎奥运村就餐区一半是素食:践行环保低碳理念

标签:
  • 热门焦点
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • JavaScript 混淆及反混淆代码工具

    JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 服务存储设计模式:Cache-Aside模式

    服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • 不容错过的MSBuild技巧,必备用法详解和实践指南

    不容错过的MSBuild技巧,必备用法详解和实践指南

    一、MSBuild简介MSBuild是一种基于XML的构建引擎,用于在.NET Framework和.NET Core应用程序中自动化构建过程。它是Visual Studio的构建引擎,可在命令行或其他构建工具中使用
  • 猿辅导与新东方的两种“归途”

    猿辅导与新东方的两种“归途”

    作者|卓心月 出品|零态LT(ID:LingTai_LT)如何成为一家伟大企业?答案一定是对“势”的把握,这其中最关键的当属对企业战略的制定,且能够站在未来看现在,即使这其中的
  • 东方甄选单飞:有些鸟注定是关不住的

    东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,“7
  • 小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都有新的进展,其中荣耀、三星都已陆续发布了最新的折叠屏旗舰,尤其号荣耀Magi
  • 三星显示已开始为AR设备研发硅基LED微显示屏

    三星显示已开始为AR设备研发硅基LED微显示屏

    7月18日消息,据外媒报道,随着苹果首款头显产品Vision Pro在6月份正式推出,AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域,对显示屏这一关
Top