当前位置:首页 > 科技  > 测评

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o

来源: 责编: 时间:2024-06-12 17:23:35 234观看
导读 6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学

6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。8pT28资讯网——每日最新资讯28at.com

在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,GPT-4o均列第三名。8pT28资讯网——每日最新资讯28at.com

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o8pT28资讯网——每日最新资讯28at.com

复旦NLP团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新Ⅰ卷中,阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率较低。8pT28资讯网——每日最新资讯28at.com

而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均超过60%,其他大模型的差距较小,除百川、DeepSeek和海螺之外,准确率均在50%以上。8pT28资讯网——每日最新资讯28at.com

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o8pT28资讯网——每日最新资讯28at.com

数学能力是GPT-4o一直以来引以为傲的能力模块,OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,曾重点演示其数学能力。8pT28资讯网——每日最新资讯28at.com

在现场演示中,GPT-4o利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。8pT28资讯网——每日最新资讯28at.com

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。8pT28资讯网——每日最新资讯28at.com

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o8pT28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-25-93240-0.html复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 4月安卓手机性能榜:骁龙8 Gen3稳居第一

下一篇: 赛博机械风十足!微星新款星影15 Air图赏

标签:
  • 热门焦点
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • 小红书1周涨粉49W+,我总结了小白可以用的N条涨粉笔记

    作者:黄河懂运营一条性教育视频,被54万人“珍藏”是什么体验?最近,情感博主@公主是用鲜花做的,火了!仅仅凭借一条视频,光小红书就有超过128万人,为她疯狂点赞!更疯狂的是,这
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 共享单车的故事讲到哪了?

    来源丨海克财经与共享充电宝相差不多,共享单车已很久没有被国内热点新闻关照到了。除了一再涨价和用户直呼用不起了。近日多家媒体再发报道称,成都、天津、郑州等地多个共享单
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 小米汽车电池信息疑似曝光:容量101kWh,支持800V高压快充

    7月14日消息,今日一名博主在社交媒体发布了一张疑似小米汽车电池信息的照片,显示该电池包正是宁德时代麒麟电池,容量为101kWh,电压为726.7V,可以预测小
  • OPPO K11样张首曝:千元机影像“卷”得真不错!

    一直以来,OPPO K系列机型都保持着较为均衡的产品体验,历来都是2K价位的明星机型,去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置,堪称有
Top