当前位置:首页 > 元宇宙 > AI

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

来源: 责编: 时间:2024-07-19 07:54:23 69观看
导读7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期

7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期推动技术的进步。crx28资讯网——每日最新资讯28at.com

crx28资讯网——每日最新资讯28at.com

crx28资讯网——每日最新资讯28at.com

据评测结果,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o在众多模型中脱颖而出,分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线,这一参考线是基于今年高考人数最多的河南省的分数线设定的。crx28资讯网——每日最新资讯28at.com

此次参与评测的大模型除了上述三款外,还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral8×22B。整个评测过程严谨而全面,不仅进行了全卷的评分,还特意邀请了有高考阅卷经验的老师进行打分,以确保评分的公正性和准确性。crx28资讯网——每日最新资讯28at.com

crx28资讯网——每日最新资讯28at.com

crx28资讯网——每日最新资讯28at.com

在这场特殊的“高考”中,Qwen2-72B以546分的高分夺得了文科状元的桂冠,而浦语文曲星则以468.5分领跑理科。与此同时,GPT-4o在文理科均展现出不俗的实力。不过,国外的大模型Mixtral8x22B在此次评测中表现相对较弱。crx28资讯网——每日最新资讯28at.com

阅卷老师们在对答案进行仔细分析后指出,虽然大模型在基础知识的掌握上表现出色,但与真实考生相比,在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时,大模型往往难以完整理解题目要求,导致答案与题目要求不符。在数学题的解答过程中,大模型的表现也显得机械且逻辑性不强。crx28资讯网——每日最新资讯28at.com

根据上海人工智能实验室上个月公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。crx28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6035-0.html通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 3万多三星员工无限期全面罢工,SSD等存储设备价格面临上调

下一篇: 专为iPad而生,苹果高管阐述iPadOS 18计算器应用创新思路

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 花房集团上市,走向元宇宙新征程

    花房集团上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集团在港交所成功上市,首日便受到追捧,当日最高涨幅达28.75%。继360、360数科、鲁大师后,这是“红衣教主”周
  • 游戏玩家才是最“元宇宙”的

    游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 星展银行(DBS)计划推出零售数字资产交易服务

    星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • 2022年中国元宇宙系列报告:底层架构研究:虚拟引擎,擎动未来

    2022年中国元宇宙系列报告:底层架构研究:虚拟引擎,擎动未来

    “虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下,虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力,能够高效快速的实现大量交互场
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 新闻业在元宇宙的现状和未来

    新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
  • 电影工业巨头好莱坞计划进军元宇宙,将会对行业带来什么影响?

    电影工业巨头好莱坞计划进军元宇宙,将会对行业带来什么影响?

    元宇宙听起来像不像是科幻小说中出现的术语?事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙,它能够模
  • 浅聊DAO图景和未来

    浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top