当前位置：首页 > 科技 > 资讯

国产AI大模型高考成绩单出来了：讯飞星火获得综合第一

来源：责编：时间：2024-06-11 17:45:25 275观看

导读随着高考的落幕，全国各地的高三学子们终于可以卸下沉重的负担，轻松迎接假期。与往年不同的是，今年的高考战场上还有一支与众不同的队伍引人注目——国产人工智能大模型。在这场特殊的高考中，包括搜狐科技、潇湘

随着高考的落幕，全国各地的高三学子们终于可以卸下沉重的负担，轻松迎接假期。与往年不同的是，今年的高考战场上还有一支与众不同的队伍引人注目——国产人工智能大模型。

在这场特殊的高考中，包括搜狐科技、潇湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测，并公布了成绩。我们来一起回顾一下：

搜狐高考作文

首先进行的是高考作文的评测。在搜狐科技的评测中，三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列，智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。

而在潇湘晨报的“AI写作”评测中，讯飞星火不仅平均分位居首位，且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师，对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分，经过四位阅卷老师的综合打分，讯飞星火以49分的平均分高居首位。

给讯飞星火打出“全场最高分”56分的阅卷老师表示：“本文观点清晰，论述集中且层层推进，很多句子都简洁有力，颇有思想性。如果是某个学生写的，无疑是难得的佳作。”另外，从网友的热门评论中也能看出讯飞星火摘得高分的原因。

网友@2024：感觉星火好点，更像作文，有些更像回答问题。

网友@烟花绽放的节日：讯飞星火更有高考味。

接下来是数学科目的较量。在搜狐科技的数学评测中，讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队，智谱清言、阿里通义则以50%的正确率位居第二梯队，其他大模型相对落后。

搜狐高考数学

在量子位的高考数学评测中，虽然没有给出详细成绩单，但展示了各家大模型详细的解题思路，交由网友打分，通过网友的投票打分可以看出，讯飞星火的“识图+解数学题”能力收到了最高认可，位居其后的分别是Kimi、通义千问、文心一言、豆包等。

量子位高考数学

最后是高考物理的测试。在量子位的评测中，阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队，而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，即正确率为28.6%；豆包、天工、智谱清言正确率为1/2，即正确率为14.3%。

量子位高考物理

综合以上媒体在作文、数学、物理三门科目的成绩，我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名，通义千问、文心一言分别位列第二、第三名，而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。

第一名：52.49 讯飞星火

第二名：46.08 通义千问

第三名：37.67 文心一言

第四名：34.68 Kimi

第五名：33.57 字节豆包

第六名：31.92 海螺AI

第七名：30.61 腾讯元宝

第八名：30.28 智谱清言

第九名：21.56 百川百小应

尽管评测方式可能不够严谨科学，但这次大模型高考无疑展示了国产人工智能在多个学科的优秀表现和长足进步，尤其是讯飞星火的表现堪称“文理兼修”！期待国产大模型再接再厉，在明年的高考中取得更加出色的成绩！

本文链接：http://www.28at.com/showinfo-16-93056-0.html国产AI大模型高考成绩单出来了：讯飞星火获得综合第一

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：投影仪系统流畅度高选什么牌子？当贝X5系统体验断层领先友商

下一篇： 100英寸可折叠电视深圳吸睛！海信激光电视星光S1又获金奖

标签：

热门焦点

红魔电竞平板评测：大屏幕硬实力

前言：三年的疫情因为要上网课的原因激活了平板市场，如今网课的时代已经过去，大家的生活都恢复到了正轨，这也就意味着，真正考验平板电脑生存的环境来了。也就是面对着这种残酷的
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
从 Pulsar Client 的原理到它的监控面板

背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题，比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态，
重估百度丨大模型，能撑起百度的“今天”吗?

自象限原创作者｜程心罗辑2023年之前，对于自己的“今天”，百度也很迷茫。“新业务到 2022 年底还是 0，希望 2023 年出来一个 1。”这是2022年底，李彦宏
华为Mate60标准版细节曝光：经典星环相机模组回归

这段时间以来，关于华为新旗舰的爆料日渐密集。据此前多方爆料，今年华为将开始恢复一年双旗舰战略，除上半年推出的P60系列外，往年下半年的Mate系列也将
iQOO 11S新品发布会

iQOO将在7月4日19:00举行新品发布会，推出杭州亚运会电竞赛事官方用机iQOO 11S。
引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

7月25日，OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力，突破性地搭载索尼 IMX890 旗舰大底主摄，支持 OIS
联想小新Pad Pro 12.6将要推出，搭载高通骁龙 870 处理器

联想小新Pad Pro 12.6将于秋季新品会上推出，官方按照惯例直接在发布会前给出了机型的所有参数。联想小新 Pad Pro 12.6 将搭载高通骁龙 870 处理器，重量为 5
三翼鸟智能家居亮相电博会，让用户体验更真实

2021电博会在青岛国际会展中心开幕中，三翼鸟直接把“家”搬到了现场，成为了展会的一大看点。这也是三翼鸟继9月9日发布了行业首个一站式定制智慧家平台后的

国产AI大模型高考成绩单出来了：讯飞星火获得综合第一

红魔电竞平板评测：大屏幕硬实力

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

从 Pulsar Client 的原理到它的监控面板

重估百度丨大模型，能撑起百度的“今天”吗?

华为Mate60标准版细节曝光：经典星环相机模组回归

iQOO 11S新品发布会

引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

联想小新Pad Pro 12.6将要推出，搭载高通骁龙 870 处理器

三翼鸟智能家居亮相电博会，让用户体验更真实

最新推荐

猜你喜欢

热门推荐

相关资讯