当前位置:首页 > 元宇宙 > AI

上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格

来源: 责编: 时间:2024-06-22 16:27:51 322观看
导读 6 月 20 日消息,上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测

6 月 20 日消息,上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。1i228资讯网——每日最新资讯28at.com

评测采用全国新课标 I 卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。1i228资讯网——每日最新资讯28at.com

该机构表示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。1i228资讯网——每日最新资讯28at.com

具体来看,InternLM2-20B-WQX 取得了数学单科的最高分,超越包括 GPT-4o 在内的所有模型。1i228资讯网——每日最新资讯28at.com

注:此次参与“大模型高考”评测的产品包含 GPT-4o 及其他 6 个模型。为公平起见,此次评测没有纳入商用闭源模型。1i228资讯网——每日最新资讯28at.com

Mixtral 8x22B:法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。1i228资讯网——每日最新资讯28at.com

Yi-1.5-34B:零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。1i228资讯网——每日最新资讯28at.com

GLM-4-9B:智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。1i228资讯网——每日最新资讯28at.com

InternLM2-20B-WQX:上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。1i228资讯网——每日最新资讯28at.com

Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。1i228资讯网——每日最新资讯28at.com

Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。1i228资讯网——每日最新资讯28at.com

语数外三科加起来的满分为 420 分,此次高考测试结果显示,阿里通义千问 2-72B 排名第一,为 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能实验室的书生・浦语 2.0 排名第三,三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾,仅拿下 185 分。1i228资讯网——每日最新资讯28at.com

1i228资讯网——每日最新资讯28at.com

数学是所有大模型的短板,平均得分率仅有 36%,参与测试的大模型无一及格。1i228资讯网——每日最新资讯28at.com

1i228资讯网——每日最新资讯28at.com

此外,阅卷教师也对大模型表现进行了整体分析,为模型能力提升策略提供参考。1i228资讯网——每日最新资讯28at.com

语文

模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。1i228资讯网——每日最新资讯28at.com

大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。1i228资讯网——每日最新资讯28at.com

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。1i228资讯网——每日最新资讯28at.com

数学

大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。1i228资讯网——每日最新资讯28at.com

大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。1i228资讯网——每日最新资讯28at.com

英语

英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。1i228资讯网——每日最新资讯28at.com

大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。1i228资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4723-0.html上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: B站开源轻量级 Index-1.9B 系列模型:2.8T 训练数据,支持角色扮演

下一篇: 振兴乡村发展 助力青少年教育 中国三星连续十一年蝉联企业社会责任榜外企第一

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • 智能人机交互技术的春晚大考

    1月初的一个早晨,京东智能客户服务产品部紧急开会,进行关于尚未对外公布的“X项目”的初讨论。1月5日,这个神秘的X项目对外公布,京东成为央视2022年春晚独家互动合
  • 新款英特尔芯片将使NFT铸造变得更加方便

    科技巨头和微处理器制造商英特尔(Intel)正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性,该公司的战略是从加密兴起与 NFT爆
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
Top