当前位置:首页 > 元宇宙 > AI

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

来源: 责编: 时间:2024-07-19 07:54:23 260观看
导读7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期

7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期推动技术的进步。OKS28资讯网——每日最新资讯28at.com

OKS28资讯网——每日最新资讯28at.com

OKS28资讯网——每日最新资讯28at.com

据评测结果,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o在众多模型中脱颖而出,分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线,这一参考线是基于今年高考人数最多的河南省的分数线设定的。OKS28资讯网——每日最新资讯28at.com

此次参与评测的大模型除了上述三款外,还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral8×22B。整个评测过程严谨而全面,不仅进行了全卷的评分,还特意邀请了有高考阅卷经验的老师进行打分,以确保评分的公正性和准确性。OKS28资讯网——每日最新资讯28at.com

OKS28资讯网——每日最新资讯28at.com

OKS28资讯网——每日最新资讯28at.com

在这场特殊的“高考”中,Qwen2-72B以546分的高分夺得了文科状元的桂冠,而浦语文曲星则以468.5分领跑理科。与此同时,GPT-4o在文理科均展现出不俗的实力。不过,国外的大模型Mixtral8x22B在此次评测中表现相对较弱。OKS28资讯网——每日最新资讯28at.com

阅卷老师们在对答案进行仔细分析后指出,虽然大模型在基础知识的掌握上表现出色,但与真实考生相比,在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时,大模型往往难以完整理解题目要求,导致答案与题目要求不符。在数学题的解答过程中,大模型的表现也显得机械且逻辑性不强。OKS28资讯网——每日最新资讯28at.com

根据上海人工智能实验室上个月公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。OKS28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6035-0.html通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 3万多三星员工无限期全面罢工,SSD等存储设备价格面临上调

下一篇: 专为iPad而生,苹果高管阐述iPadOS 18计算器应用创新思路

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 林俊杰、余文乐等明星相继入局,元宇宙虚拟土地究竟有何魔力?

    上周的元宇宙和明星圈因为一则“林俊杰在推特上宣布持有Decentraland元宇宙虚拟地块”的新闻而备受关注,该新闻一方面在娱乐圈引起了吃瓜群众的好奇,另一方面在
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • 盘点9个主流元宇宙平台,你都知道哪些?

    随着NFT的持续升温,它也加入了现在的元宇宙浪潮。本文介绍元宇宙的基本概念以及 九个最流行的元宇宙NFT平台,如Decentraland、sandbox等。用熟悉的语言学习 以太
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
Top