当前位置:首页 > 科技  > 网络

我们用难哭考生的2025北京中考 测了7款大模型的真实水平

来源: 责编: 时间:2025-07-05 10:39:02 188观看
导读 引言:2025北京中考落下帷幕,11.05万名考生顺利完考。这是北京新一轮中考改革的首次落地,考试时间从往年的三天压缩至了两天。大的变化有两个,一是总分值由670分降至510分,二是道德与法治采取开卷考试形式。总分

引言:2025北京中考落下帷幕,11.05万名考生顺利完考。Xo028资讯网——每日最新资讯28at.com

这是北京新一轮中考改革的首次落地,考试时间从往年的三天压缩至了两天。大的变化有两个,一是总分值由670分降至510分,二是道德与法治采取开卷考试形式。Xo028资讯网——每日最新资讯28at.com

总分降低意味着每一分的价值更高,高分段竞争可能更激烈。同时,各学科命题会更注重考查学生的核心素养和关键能力。Xo028资讯网——每日最新资讯28at.com

比如数学降低了简单题的占比,题型创新性强(如新函数、圆综题难度大),区分度提升。语文的试题则特别体现了考生对语言文字基本功、基本的感受能力的考查,引导学生在情境当中去思考如何去运用语言文字来解决问题。Xo028资讯网——每日最新资讯28at.com

从考生网友的反馈来看,三个字,难哭了。Xo028资讯网——每日最新资讯28at.com

以今年的语文作文为例,两道题目二选一,作文一聚焦科学与健康方向——《这样生活更健康》,作文二则强调科学素养与生活实践——《一堂科学课》,题目看着简单,但想写出彩并不容易,也难怪有考生直呼:“这题我熟,但写起来太难了!”Xo028资讯网——每日最新资讯28at.com

看到这儿,相信很多人和我一样有一个疑问,如果把当下各种主流AI大模型当作中考考生,它们到底能答出怎样一份答卷?Xo028资讯网——每日最新资讯28at.com

我们更好奇的是,作为检验初中学业水平的标尺,以当下大模型的水准,是否是传说中的学霸尖子生呢。Xo028资讯网——每日最新资讯28at.com

【7款大模型实战2025北京中考,这才是它们的真实水平】Xo028资讯网——每日最新资讯28at.com

先介绍一下这次大模型中考的参赛选手和测试方法。Xo028资讯网——每日最新资讯28at.com

考题:Xo028资讯网——每日最新资讯28at.com

2025北京中考,语文作文(题目二)、英语作文(题目二)、数学全卷。Xo028资讯网——每日最新资讯28at.com

考生名单:Xo028资讯网——每日最新资讯28at.com

DeepSeek、字节豆包、讯飞星火、通义千问、腾讯混元、文心一言、GPT。Xo028资讯网——每日最新资讯28at.com

选择这7位,基本都是大家常用到的大模型,过于小众的、没有代表性的,不在此次考察范围内。Xo028资讯网——每日最新资讯28at.com

测试方法:Xo028资讯网——每日最新资讯28at.com

为了确保公平,所有参与测试大模型考生统一关闭联网功能,打开深度推理。Xo028资讯网——每日最新资讯28at.com

语文作文、英语作文以文本形式提问。其中,语文作文评分特邀前人大附中分校语文名师、中考命题高级研究员李豪,以及中考语文资深教研专家、曾参与多所重点中学语文备考方案制定的重点校特邀讲师金宇佳参与评分,由这两位资深语文教育专家分别进行打分,取两位老师的平均分作为终评分的形式进行实测。Xo028资讯网——每日最新资讯28at.com

英语作文评分特邀原咸宁市中考命题专家兼英语学科命题组长张扬,以及10年以上英语教研工作经验、多次担任北京中考英语阅卷人的石杨两位专家打分,同样取平均分。Xo028资讯网——每日最新资讯28at.com

数学题目提问采用图片扫描和LaTeX格式两种评判方式。判分与人类考生统一标准:选择题和填空题只看终结果,不考虑模型解题过程是否准确;解答题分两种情况,普通解答题采用的是结果分,证明题则是按步骤给分。Xo028资讯网——每日最新资讯28at.com

我们先来看看这七款大模型,三科测试的终结果:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

这里说明一下,语文作文和英语作文,我们都选择题目二来进行考试。Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平2025年北京中考语文作文的分数为40分。考生需要在两个题目中选择一个,要求作文内容积极向上,字数在600-800之间。Xo028资讯网——每日最新资讯28at.com

语文作文第二道是《一堂科学课》,首先大模型跟这个选题更相关,相较第一个生活类话题《这样生活更健康》,更加考验大模型的思辨能力,跟容易考出区分度。Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平2025年北京中考英语作文的分数为10分。考生需要在两个题目中选择一个,完成一篇不少于50词的英语文段写作Xo028资讯网——每日最新资讯28at.com

英语作文题目一有图表,这就需要考察OCR能力,但各家大模型的OCR有自研的,也有第三方的,无法统一标准,会对结果有影响。所以统一选择没有图表的题目二来进行作答。Xo028资讯网——每日最新资讯28at.com

数学试卷因为涉及到一些公式识别,特别是多行的,以及图形等,这就很考验大模型的文档信息分析识别与提取,所以此次采用两种方式进行测试,一种是直接用图片扫描,另一种是用LaTeX格式。Xo028资讯网——每日最新资讯28at.com

接下来我们仔细看看单科的成绩:Xo028资讯网——每日最新资讯28at.com

一、数学:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

小结:从数学成绩来看,以图片格式扫描数学试卷,一题一题来测试,讯飞星火、豆包、GPT三款大模型的分数排名前三,都在85分以上,而通义千问、文心一言、Deepseek三款大模型排名靠后,分别为73分、68分、63分。能拿到这个成绩并不简单,此前考生们普遍反映这届数学“文字量太大了根本就写不完”。Xo028资讯网——每日最新资讯28at.com

值得注意的是,在图片格式下,寄予厚望的Deepeek直接就宣布“出局”了,因它存在图片识别问题,无法正确识别出数学算式,所以导致得分低。Xo028资讯网——每日最新资讯28at.com

在解答选择、填空两种客观题方面,除了Deepeek填空题得10分外,各家大模型的差别都不大,得分区间在14-16分。其中讯飞星火X1两项都拿下满分,而得分较低的通义千问、文心一言在填空方面却很擅长,也拿下满分。Xo028资讯网——每日最新资讯28at.com

不过,拉开几款大模型分数的主要是解答题这类主观题。Xo028资讯网——每日最新资讯28at.com

测试结果显示,满分68分的解答题,Deepseek仅拿下39分,而豆包得分59分,足足20分的差距。Xo028资讯网——每日最新资讯28at.com

在整式运算、解不等式组、分式化简求值、方程应用和函数问题方面,各家大模型都表现良好,得分率较高。Xo028资讯网——每日最新资讯28at.com

而在涉及图片信息理解的几何证明与计算、统计图表、函数图象问题上,各家大模型均出现丢分情况。这是因为大模型在处理图像题时,常因无法准确识别图形元素或理解题目中的视觉暗示,例如,涉及几何证明、动态变化等需要空间想象能力的题目,大模型的表现尤为挣扎。Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

在LaTeX格式下,除GPT外,其他几款大模型的分数差距不大,得分在78分-89分之间。从整体排名看,讯飞星火、Deepseek、腾讯混元排名前三,文心一言、GPT排名靠后。Xo028资讯网——每日最新资讯28at.com

值得一提的是,我们此次测试采用的是GPT-o3版本,该模型在LaTeX格式下图片缺失,所给答案错误或无结果,导致得分较低,而附带试题图片和LaTeX格式则会输出英文解题流程,答案仍不正确,整体分值明显下降,从86分降为63分。Xo028资讯网——每日最新资讯28at.com

而Deepseek在LaTeX格式输入下能正确理解数学算式,整体分值显著提升,分数从63分变为84分。Xo028资讯网——每日最新资讯28at.com

其余5款大模型无论采用图片格式,还是LaTeX格式,客观题和主观题作答情况和丢分点基本保持一致,这也是各家大模型今后要关注的优化重点。Xo028资讯网——每日最新资讯28at.com

二、语文作文:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

小结:从语文作文终成绩来看,7个主流大模型考生的低分也有32.5分,高分甚至来到了37.5分,换算成百分制的话在81-94分之间,平均分接近86分,表现相当不错。从7位考生的解题思路与终成文也能看出,当下AI大模型已具备非常强的“成品”交付能力,面对明确的写作指令,各平台均能精准把握需求,输出逻辑自洽、主题聚焦的内容,有效规避了偏题跑题等基础失误。同时,能融入模拟人类思考的个性化观点,降低了AI 生成内容的机械感。Xo028资讯网——每日最新资讯28at.com

当然,在细节雕琢与文本质感层面,各模型的差异性逐渐显现。Xo028资讯网——每日最新资讯28at.com

以 GPT为代表的海外模型,尽管拥有强大的语言处理能力,但在中文语境适配性上仍有提升空间,虽然作文主题明确,结构完整,语言流畅,但依然存在立意较浅、内容有点脱离实际、真情实感不足、部分段落重复拖沓等问题。Xo028资讯网——每日最新资讯28at.com

腾讯混元、文心一言、通义千问都能符合题意,中心明确,紧扣“科学课”主题,但均存在情感表达流于表面、个别比喻不够精准、叙述显得空泛,真情实感不足、部分段落重复拖沓、叙述不够完整等待改善的问题,在文章立意上还有待拔高,属于二类卷考生的中上表现。Xo028资讯网——每日最新资讯28at.com

相较之下,豆包、DeepSeek展现出更出色的创作实力,均达到了一类卷的水准,但距离炉火纯青还稍差火候。拿到高37.5分的讯飞星火,则凭借深刻独到的立意、流畅生动的语言脱颖而出,在本次评测中摘得桂冠。两位专家在点评中给予了高度评价——科学观察与情感升华浑然天成,立意高度与现场感尤为突出,堪称一类卷上乘之作。Xo028资讯网——每日最新资讯28at.com

以下为各大模型生成的语文作文过程:Xo028资讯网——每日最新资讯28at.com

讯飞星火:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

DeepSeek:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

豆包:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

通义千问:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

文心一言:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

GPT:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

腾讯混元:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

三、英语作文:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

小结:英语作文终成绩显示,7个主流大模型考生中低分为7分,高分甚至拿到满分10分,若换算为百分制,分数区间在70-100分,平均分超过84分,虽表现十分亮眼,但平均分稍逊于语文,可见绝大多数的国产大模型还是更擅长中文写作。Xo028资讯网——每日最新资讯28at.com

此外,7-10分的落差也能看出成绩差异很大,貌似有大模型考生出现了“偏科”。Xo028资讯网——每日最新资讯28at.com

其中腾讯混元生成的作文被定义为良好级别,其结构完整,语言表意准确,但内容没有独特的细节,缺乏更复杂的句式、高级词汇,给人稍显单一的感觉。若篇章衔接和语言表达更多样化、更高级化,有望向卓越级别靠拢。Xo028资讯网——每日最新资讯28at.com

令人意外的是,来自海外的GPT并未因“母语”优势取得亮眼的成绩,在该测试中它仅拿到7.5分。虽然作文覆盖全部要点,逻辑清晰也清晰,但“论证较简单”,每个点并未展开更深入的说明;同时句式以简单句为主,缺乏主从复合句和特殊句式。Xo028资讯网——每日最新资讯28at.com

此外,今年大火的DeepSeek虽有地道表达和亮点,但阐述理由时出现“硬伤”部分没有和设想部分完全闭环,逻辑不够紧密。Xo028资讯网——每日最新资讯28at.com

作为对比,通义千问、文心一言在英语写作中都拿到了9分的高水准,但文心一言被评为卓越档,通义千问则落档为良好。两款模型在要点上都表现齐全,但亦有不足之处。其中通义千问出现段落不分明,逻辑层次模糊;文心一言则部分句式结构相对复杂,不利于初中生理解。相比之下,文心一言的缺点显得“不致命”。Xo028资讯网——每日最新资讯28at.com

而豆包也出现了同样的问题,豆包生成的作文部分词句超出初中生水平,如果做为范文,不具有普适性。虽然豆包得分8.5分,但同样被评为了卓越档,由此可见,得分的高低并不是被定档的唯一因素。Xo028资讯网——每日最新资讯28at.com

7个大模型测试中,讯飞星火在英语写作上拿到了满分10分,两位评委在点评中给予了高度评价,内容完全覆盖题目要求要点,既写出了对未来图书馆展望的设计,又生动阐述了其重要的功能意义,细节丰富。无论是篇章结构,还是语言表达上,都恰到好处。Xo028资讯网——每日最新资讯28at.com

以下为各大模型生成的英语作文过程:Xo028资讯网——每日最新资讯28at.com

讯飞星火:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

DeepSeek:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

豆包:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

通义千问:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

文心一言:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

GPT:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

腾讯混元:Xo028资讯网——每日最新资讯28at.com

我们用难哭考生的2025北京中考 测了7款大模型的真实水平Xo028资讯网——每日最新资讯28at.com

总结:Xo028资讯网——每日最新资讯28at.com

这次“大模型中考”中,当AI们在作文里讲述“科学课”的故事,用英文以第一人称写出切实建议,在数学题中推导公式,我们看到的不仅是代码与算法的进化,更是人类对智慧边界的不断探索。Xo028资讯网——每日最新资讯28at.com

那些接近满分的作文、严谨的数学推导,证明大模型早已不是简单的文字搬运工,它们正以惊人的速度学习、成长,成为我们生活中越来越可靠的数字伙伴。Xo028资讯网——每日最新资讯28at.com

也再一次说明,学生们也需要从死记硬背和机械刷题转向主动理解、思考与探究,注重知识的融会贯通与灵活运用,形成学科融合的学习思维。Xo028资讯网——每日最新资讯28at.com

但也别忘了,再精妙的算法也写不出少年们在考场上的紧张心跳,再强大的模型也复制不了人类灵光乍现的独特创意。大模型的“高分答卷”,更像是递给我们的一张邀请函,邀请我们重新思考学习的意义,在技术浪潮中守住独立思考的锋芒。Xo028资讯网——每日最新资讯28at.com

未来,人类与AI或许会像并肩作战的队友,用各自的优势,共同书写出更精彩的答案。这场中考不是终点,而是我们与智能时代携手同行的新起点。Xo028资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-166464-0.html我们用难哭考生的2025北京中考 测了7款大模型的真实水平

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 罗马仕淘宝店保证金余额不足 用户退款成难题 网友怀疑要跑路

下一篇: 面包车在高速上爆胎 后排乘客没系安全带 被甩出车外险丧命

标签:
  • 热门焦点
  • 影音体验是真的强 简单聊聊iQOO Pad

    大公司的好处就是产品线丰富,非常细分化的东西也能给你做出来,例如早先我们看到了新的vivo Pad2,之后我们又在iQOO Neo8 Pro的发布会上看到了iQOO的首款平板产品iQOO Pad。虽
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • 认真聊聊东方甄选:如何告别低垂的果实

    来源:山核桃作者:财经无忌爆火一年后,俞敏洪和他的东方甄选依旧是颇受外界关心的“网红”。7月5日至9日,为期5天的东方甄选“甘肃行”首次在自有App内直播,
  • 小米MIX Fold 3配置细节曝光:搭载领先版骁龙8 Gen2+罕见5倍长焦

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料,而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
  • 与兆芯合作 联想推出全新旗舰版笔记本电脑开天N7系列

    联想与兆芯合作推出全新联想旗舰版笔记本电脑开天 N7系列。这个系列采用兆芯KX-6640MA处理器平台,KX-6640MA 处理器是采用了陆家嘴架构,16nm 工艺,4 核 4 线
Top