当前位置:首页 > 科技  > 资讯

国产AI大模型高考成绩单出来了:讯飞星火获得综合第一

来源: 责编: 时间:2024-06-11 17:45:25 253观看
导读随着高考的落幕,全国各地的高三学子们终于可以卸下沉重的负担,轻松迎接假期。与往年不同的是,今年的高考战场上还有一支与众不同的队伍引人注目——国产人工智能大模型。在这场特殊的高考中,包括搜狐科技、潇湘

随着高考的落幕,全国各地的高三学子们终于可以卸下沉重的负担,轻松迎接假期。与往年不同的是,今年的高考战场上还有一支与众不同的队伍引人注目——国产人工智能大模型。xSD28资讯网——每日最新资讯28at.com

在这场特殊的高考中,包括搜狐科技、潇湘晨报、量子位等多家权威媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的评测,并公布了成绩。我们来一起回顾一下:xSD28资讯网——每日最新资讯28at.com

搜狐高考作文xSD28资讯网——每日最新资讯28at.com

首先进行的是高考作文的评测。在搜狐科技的评测中,三位资深语文教师作为权威专家为各大模型的作文打分。腾讯元宝和百度文心一言以超过50分的成绩位居前列,智谱清言、字节豆包与讯飞星火则并列第三。Kimi、阿里通义、百川、海螺排名相对靠后。xSD28资讯网——每日最新资讯28at.com

而在潇湘晨报的“AI写作”评测中,讯飞星火不仅平均分位居首位,且获得了全场最高分56分。潇湘晨报邀请湖南知名作家、编辑作为阅卷老师,对国内五大AI大模型产品——百度文心一言、讯飞星火、阿里通义千问、字节豆包、腾讯元宝的高考作文进行评分,经过四位阅卷老师的综合打分,讯飞星火以49分的平均分高居首位。xSD28资讯网——每日最新资讯28at.com

xSD28资讯网——每日最新资讯28at.com

给讯飞星火打出“全场最高分”56分的阅卷老师表示:“本文观点清晰,论述集中且层层推进,很多句子都简洁有力,颇有思想性。如果是某个学生写的,无疑是难得的佳作。”另外,从网友的热门评论中也能看出讯飞星火摘得高分的原因。xSD28资讯网——每日最新资讯28at.com

网友@2024:感觉星火好点,更像作文,有些更像回答问题。xSD28资讯网——每日最新资讯28at.com

网友@烟花绽放的节日:讯飞星火更有高考味。xSD28资讯网——每日最新资讯28at.com

接下来是数学科目的较量。在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。xSD28资讯网——每日最新资讯28at.com

搜狐高考数学xSD28资讯网——每日最新资讯28at.com

在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详细的解题思路,交由网友打分,通过网友的投票打分可以看出,讯飞星火的“识图+解数学题”能力收到了最高认可,位居其后的分别是Kimi、通义千问、文心一言、豆包等。xSD28资讯网——每日最新资讯28at.com

量子位高考数学xSD28资讯网——每日最新资讯28at.com

最后是高考物理的测试。在量子位的评测中,阿里通义千问与讯飞星火以71.4%的准确率高居第一梯队,而Kimi、海螺和腾讯元宝则以42.9%的准确率位于第二梯队。百川百小应和万知答对一题位于第三梯队。xSD28资讯网——每日最新资讯28at.com

文心一言、豆包、天工、智谱清言、商量因为出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,即正确率为28.6%;豆包、天工、智谱清言正确率为1/2,即正确率为14.3%。xSD28资讯网——每日最新资讯28at.com

量子位高考物理xSD28资讯网——每日最新资讯28at.com

综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。xSD28资讯网——每日最新资讯28at.com

第一名:52.49 讯飞星火xSD28资讯网——每日最新资讯28at.com

第二名:46.08 通义千问xSD28资讯网——每日最新资讯28at.com

第三名:37.67 文心一言xSD28资讯网——每日最新资讯28at.com

第四名:34.68 KimixSD28资讯网——每日最新资讯28at.com

第五名:33.57 字节豆包xSD28资讯网——每日最新资讯28at.com

第六名:31.92 海螺AIxSD28资讯网——每日最新资讯28at.com

第七名:30.61 腾讯元宝xSD28资讯网——每日最新资讯28at.com

第八名:30.28 智谱清言xSD28资讯网——每日最新资讯28at.com

第九名:21.56 百川百小应xSD28资讯网——每日最新资讯28at.com

尽管评测方式可能不够严谨科学,但这次大模型高考无疑展示了国产人工智能在多个学科的优秀表现和长足进步,尤其是讯飞星火的表现堪称“文理兼修”!期待国产大模型再接再厉,在明年的高考中取得更加出色的成绩!xSD28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-93056-0.html国产AI大模型高考成绩单出来了:讯飞星火获得综合第一

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 投影仪系统流畅度高选什么牌子?当贝X5系统体验断层领先友商

下一篇: 100英寸可折叠电视深圳吸睛!海信激光电视星光S1又获金奖

标签:
  • 热门焦点
  • 一加Ace2 Pro真机揭晓 钛空灰配色质感拉满

    终于,在经过了几波预热之后,一加Ace2 Pro的外观真机图在网上出现了。还是博主数码闲聊站曝光的,这次的外观设计还是延续了一加11的方案,只是细节上有了调整,例如新加入了钛空灰
  • 一加首款折叠屏!一加Open渲染图出炉:罕见单手可握小尺寸

    8月5日消息,此前就有爆料称,一加首款折叠屏手机将会在第三季度上市,如今随着时间临近,新机的各种消息也开始浮出水面。据悉,这款新机将会被命名为“On
  • K6:面向开发人员的现代负载测试工具

    K6 是一个开源负载测试工具,可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上,它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序,包括 Web
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 网红炒股不为了赚钱,那就是耍流氓!

    来源:首席商业评论6月26日高调宣布入市,网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上,几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
  • 联想的ThinkBook Plus下一版曝光,键盘旁边塞个平板

    ThinkBook Plus 是联想的一个特殊笔记本类别,它在封面放入了一块墨水屏,也给人留下了较为深刻的印象。据有人爆料,联想的下一款 ThinkBook Plus 可能更特殊,它
Top