当前位置:首页 > 元宇宙 > AI

七家主流大模型挑战 2025 高考数学:仅 DeepSeek、讯飞星火得分超 140

来源: 责编: 时间:2025-06-11 09:58:37 187观看
导读 2025 年高考还在进行中,昨天已经考完了语文和数学,相信大家也在网上看到了很多关于这两门学科试卷难度的讨论,比如昨天数学考完后,关于“数学难不难”的话题瞬间爆上了热搜。当然,试卷的难度对于不同的同学来说可

2025 年高考还在进行中,昨天已经考完了语文和数学,相信大家也在网上看到了很多关于这两门学科试卷难度的讨论,比如昨天数学考完后,关于“数学难不难”的话题瞬间爆上了热搜。d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

当然,试卷的难度对于不同的同学来说可能会有不同的感受,不过作为科技编辑,小编比较感兴趣的是,今年的数学试卷对于目前很火的 AI 来说难不难呢?d6q28资讯网——每日最新资讯28at.com

想到这,今天我们不妨就这次高考的数学卷来一次大模型之间的比拼,让各家的大模型化身“高考学子”,完整地做一套高考数学卷,看看它们各自能拿多少分。d6q28资讯网——每日最新资讯28at.com

在模拟过程中,小编选择了以下几名具有代表性的大模型“考生”,分别是:d6q28资讯网——每日最新资讯28at.com

DeepSeek R1 0528d6q28资讯网——每日最新资讯28at.com

通义千问 Qwen3-235B-A22Bd6q28资讯网——每日最新资讯28at.com

讯飞星火 X1-0420d6q28资讯网——每日最新资讯28at.com

豆包 Seed-Thingking-v1.5d6q28资讯网——每日最新资讯28at.com

文心 X1 Turbod6q28资讯网——每日最新资讯28at.com

腾讯混元 Hunyuan T1 latestd6q28资讯网——每日最新资讯28at.com

GPT o3d6q28资讯网——每日最新资讯28at.com

另外需要说明的是,由于目前网络流出的试题存在多个版本(回忆题),不完全一致,存在题目不完整的情况,通过多版本交叉验证 + 老师解题验证的方式进行评测,总分是 150 分。d6q28资讯网——每日最新资讯28at.com

同时还邀请了一位专业的评分老师来辅助我们对大模型的答案进行评分:d6q28资讯网——每日最新资讯28at.com

汪鹏:十年高中数学一线教研专家,主导省级数学教学创新课题,精研命题策略与高分突破路径。d6q28资讯网——每日最新资讯28at.com

此外,因 DeepSeek 网页版 OCR 转写不稳定,还有腾讯混元在高考时间段不能用拍图识别的功能,针对类似情况,我们采用 OCR 转写后输入答题。d6q28资讯网——每日最新资讯28at.com

由于考题较多,我们无法把所有题目的大模型答题流程和答案都一一呈现,所以这里我们仅挑选一些题目来说明。d6q28资讯网——每日最新资讯28at.com

话不多说,我们先来看题吧。d6q28资讯网——每日最新资讯28at.com

1、第 1 题

首先是比较简单的选择题第 1 题:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

这道题比较容易,DeepSeek R1 的回答如下:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

然后是通义千问:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

讯飞星火作答:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

豆包也给出了正确答案:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

文心一言的答案如下:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

腾讯混元的回答:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

GPT o3 的答案:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

对于选择题第 1 题,各家大模型都给出了正确的答案,仔细看具体的解题流程可能不同,但不影响答案的正确性。d6q28资讯网——每日最新资讯28at.com

2、第 5 题

下面稍微上点难度,选择题第 5 题是一道函数题:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

各家大模型的答案和截图过程如下:d6q28资讯网——每日最新资讯28at.com

DeepSeek :d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

通义千问:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

讯飞星火:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

豆包:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

文心一言:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

腾讯混元:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

GPT o3:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

这一道选择题的正确答案是 A,全部答对。d6q28资讯网——每日最新资讯28at.com

3、第 8 题

接下来我们看更难一点的题,选择题第 8 题,这也是一道涉及到对数的函数题:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

面对这道题,各家大模型给出的答案如下:d6q28资讯网——每日最新资讯28at.com

DeepSeek R1:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

通义千问:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

讯飞星火:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

豆包大模型:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

文心一言:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

腾讯混元:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

GPT o3:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

这道题目的正确答案是 B,豆包大模型和 DeepSeek 答错了,其他的大模型均给出了正确的答案。d6q28资讯网——每日最新资讯28at.com

4、第 16 题

接下来我们来看解答题,解答题的评分不只看结果,还要看解题的过程,过程不对也会被扣分。这里我们以解答题的第 16 题来作为例子,这道题已经是解答题中偏中等难度的题目,涉及数列和函数相关的知识点。d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

我们先看 DeepSeek R1,给出的结果没有扣分项,可以得到满分(15 分):d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

通义千问的解答和最终答案也是正确的:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

讯飞星火的回答,解题过程清晰明了,答案正确:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

然后是豆包大模型的回答,同样步骤和结果都没什么问题:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

文心一言第二个小题答案错了,只能得到 6 分:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

腾讯混元两个小题的回答都存在问题,因此这道题只能得 0 分:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

GPT o3 的两个回答解题过程都没有问题,但是第二个小问的最后结果呈现表达上有点小瑕疵,得 14 分:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

5、第 18 题

最后是难度更高,挑战比较大的第 18 题,d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

面对这道题,讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3 的解题过程和答案都没什么问题,拿到了 17 分满分,而文心 X1 模型的答案存在错误,得分为 10 分。d6q28资讯网——每日最新资讯28at.com

Deepseek:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

通义千问:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

讯飞星火:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

豆包大模型:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

文心一言:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

腾讯混元:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

GPT o3:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

以上是这次七家大模型挑战 2025 高考数学全国 1 卷的部分题目作答情况的举例,下面我们再来看这次“考试”各位大模型“考生”的总体得分情况:d6q28资讯网——每日最新资讯28at.com

d6q28资讯网——每日最新资讯28at.com

可以看到,在这次“考试”中,DeepSeek、讯飞星火两家表现突出,是唯二突破 140 分的大模型,稳居国内大模型数学能力的第一梯队,在考生中也达到了“尖子生”标准。其中,DeepSeek 以 143 分的成绩位列榜首,讯飞星火以 141 分紧随其后,位居第二,GPT o3 则以 138 分获得第三名。d6q28资讯网——每日最新资讯28at.com

本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升级了最新版本,也是本次评测的模型里最“新”的一位考生,升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升,但其在实际应用中也暴露出了一些明显短板。首先在实测中,我们发现 DeepSeek 在 OCR 识别效果不理想,出现不少题目识别错误,为确保准确性,我们只能用其他 AI 将试卷图片转化为文本问题,再给到 DeepSeek 作答;其次,DeepSeek 模型版本较大,导致推理速度慢、资源消耗高,在实际的教学场景中可能面临响应效率问题。d6q28资讯网——每日最新资讯28at.com

此外,在这次考试中仅以 2 分之差紧随其后的讯飞星火,是在 4 月 20 日升级,版本较早,但在模型量级更小(70b)的情况下,其依然取得了 141 分的高分,并显著超越了豆包等其他参与测评的国内大模型。尤其值得一提的是,讯飞星火 X1 是基于全国产算力平台训练出来的,可见他们背后的自主技术研发实力值得肯定,讯飞在教育领域长达 20 多年的资源积累,也体现在了讯飞星火在数学能力上的高效准确。d6q28资讯网——每日最新资讯28at.com

作为国产大模型的代表,豆包、通义千问等大模型分数紧跟 GPT o3,基本上和国际顶尖的模型水平打了个平手。d6q28资讯网——每日最新资讯28at.com

此次国内外大模型参考“2025 高考数学”,也是深度推理模型的一场大考,和去年相比,AI 的数学能力有了非常明显的提升。2025 年将是 AI 应用落地的爆发期,如何让 AI 更好的成为我们的帮手,拓展 AI 在教育领域深度应用的更多可能性,将推理模型的优势与教学实际深度结合等等,或许就是我们用 AI 来作答高考试卷背后的用意和价值所在。d6q28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13600-0.html七家主流大模型挑战 2025 高考数学:仅 DeepSeek、讯飞星火得分超 140

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI发展至AJI阶段,谷歌CEO皮查伊:通用AI还需至少二十年

下一篇: 视频生成平台 Runway 举办年度 AI 电影节,6000 部参赛作品决出十强

标签:
  • 热门焦点
  • 元娲2.7上线:虚拟人视频制作速度疯狂翻倍!

    来源:清元宇宙 炎炎夏日努力工作的Q仔的电脑都冒烟儿啦~今天要给大家介绍两个新小伙伴——小元和小娲,他们将给大家解读元娲2.7版本重磅更新内容~大家掌声欢迎~~~本次更
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
Top