当前位置：首页 > 元宇宙 > AI

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

来源：责编：时间：2024-07-19 07:54:23 306观看

导读7月18日消息，近日，上海人工智能实验室揭晓了一场特殊的“高考”成绩，这场考试与众不同，因为它的参考者并非真实的学生，而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平，并寻找其可能存在的问题，以期

7月18日消息，近日，上海人工智能实验室揭晓了一场特殊的“高考”成绩，这场考试与众不同，因为它的参考者并非真实的学生，而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平，并寻找其可能存在的问题，以期推动技术的进步。

据评测结果，书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o在众多模型中脱颖而出，分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线，这一参考线是基于今年高考人数最多的河南省的分数线设定的。

此次参与评测的大模型除了上述三款外，还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral8×22B。整个评测过程严谨而全面，不仅进行了全卷的评分，还特意邀请了有高考阅卷经验的老师进行打分，以确保评分的公正性和准确性。

在这场特殊的“高考”中，Qwen2-72B以546分的高分夺得了文科状元的桂冠，而浦语文曲星则以468.5分领跑理科。与此同时，GPT-4o在文理科均展现出不俗的实力。不过，国外的大模型Mixtral8x22B在此次评测中表现相对较弱。

阅卷老师们在对答案进行仔细分析后指出，虽然大模型在基础知识的掌握上表现出色，但与真实考生相比，在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时，大模型往往难以完整理解题目要求，导致答案与题目要求不符。在数学题的解答过程中，大模型的表现也显得机械且逻辑性不强。

根据上海人工智能实验室上个月公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲，得分率均超过70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

本文链接：http://www.28at.com/showinfo-45-6035-0.html通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： 3万多三星员工无限期全面罢工，SSD等存储设备价格面临上调

下一篇：专为iPad而生，苹果高管阐述iPadOS 18计算器应用创新思路

标签：

热门焦点

关于ChatGPT的10点思考

作者：晏涛三寿近日ChatGPT又有大动作。5月19日，OpenAI在官网宣布正式发布App应用，并登录苹果应用商店。与网页版的聊天机器人相比，iOS应用程序的发布有望让更多人接触到ChatGPT
25万虚拟er在“元宇宙”追星

“默叽默叽，我是默默酱，我是在真元宇宙也有头有脸的人。”12月11日晚20：00，虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马，抵达繁星》在大有空间APP
花房集团上市，走向元宇宙新征程

文 | 港股研究社作者 | 熊生12月12日，花房集团在港交所成功上市，首日便受到追捧，当日最高涨幅达28.75%。继360、360数科、鲁大师后，这是“红衣教主”周
重温 1602 年：DAO 是新的企业范式吗？

作者：Andrew Singer“ 将你的选票委托给行业有能力的专家，将使所有者在这些公司的管理中拥有更强大、更清晰的话语权。”1602 年，荷兰东印度公司成立，许多人认为
音乐NFT平台里的下一匹黑马是谁？

NFT 销售额在 2021 年开始暴涨，从 2018 年的仅 4069 万美元的交易量，到 2021 年，NFT 交易量飙升至 442 亿美元以上，并不断刷新记录并达到新的高度。预测到2025 年N
以太坊面临来自Fantom的巨大挑战

众所周知，区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
元宇宙平台会是上世纪末的互联网吗？

“元宇宙”火了好几个月，互联网大厂忙于布局，资本市场热烈追捧。然而很多人还是看不明白，更多的人觉得这是一场泡沫，一场骗局。一开始接触这个怪里怪气的名词，感觉
在互联网考古后，我被豆瓣上这座元宇宙古城征服了

最近一段时间，豆瓣可谓命途多舛：APP屡次下架，平台也被相关部门约谈、处罚，国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能：这个曾经小
TX加入的NFT数字收藏品，元宇宙的破圈之路?

3月7日，澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资，腾讯参投。想必国人最熟知的应该就是TX，作为国内四大互联网

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

关于ChatGPT的10点思考

25万虚拟er在“元宇宙”追星

花房集团上市，走向元宇宙新征程

重温 1602 年：DAO 是新的企业范式吗？

音乐NFT平台里的下一匹黑马是谁？

以太坊面临来自Fantom的巨大挑战

元宇宙平台会是上世纪末的互联网吗？

在互联网考古后，我被豆瓣上这座元宇宙古城征服了

TX加入的NFT数字收藏品，元宇宙的破圈之路?

最新推荐

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

关于ChatGPT的10点思考

美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

2022年中国元宇宙产业系列研究报告-基础设施篇（5）

Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

猜你喜欢

热门推荐

相关资讯