当前位置:首页 > 科技  > 测评

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o

来源: 责编: 时间:2024-06-12 17:23:35 246观看
导读 6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学

6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。48w28资讯网——每日最新资讯28at.com

在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,GPT-4o均列第三名。48w28资讯网——每日最新资讯28at.com

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o48w28资讯网——每日最新资讯28at.com

复旦NLP团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新Ⅰ卷中,阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率较低。48w28资讯网——每日最新资讯28at.com

而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均超过60%,其他大模型的差距较小,除百川、DeepSeek和海螺之外,准确率均在50%以上。48w28资讯网——每日最新资讯28at.com

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o48w28资讯网——每日最新资讯28at.com

数学能力是GPT-4o一直以来引以为傲的能力模块,OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,曾重点演示其数学能力。48w28资讯网——每日最新资讯28at.com

在现场演示中,GPT-4o利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。48w28资讯网——每日最新资讯28at.com

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。48w28资讯网——每日最新资讯28at.com

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o48w28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-25-93240-0.html复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 4月安卓手机性能榜:骁龙8 Gen3稳居第一

下一篇: 赛博机械风十足!微星新款星影15 Air图赏

标签:
  • 热门焦点
  • K60至尊版刚预热 一加Ace2 Pro正面硬刚

    Redmi这边刚如火如荼的宣传了K60 Ultra的各种技术和硬件配置,作为竞品的一加也坐不住了。一加中国区总裁李杰发布了两条微博,表示在自家的一加Ace2上早就已经采用了和PixelWo
  • 中兴AX5400Pro+上手体验:再升级 双2.5G网口+USB 3.0这次全都有

    2021年11月的时候,中兴先后发布了两款路由器产品,中兴AX5400和中兴AX5400 Pro,从产品命名上就不难看出这是隶属于同一系列的,但在外观设计上这两款产品可以说是完全没一点关系
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • 2天涨粉255万,又一赛道在抖音爆火

    来源:运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期,旅游赛道彻底火了:有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿;有的「博主」火了&m
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 三星电子Q2营收60万亿韩元 存储业务营收同比仍下滑超过50%

    7月27日消息,据外媒报道,从三星电子所发布的财报来看,他们主要利润来源的存储芯片业务在今年二季度仍不乐观,营收同比仍在大幅下滑,所在的设备解决方案
  • 三星Galaxy Z Fold/Flip 5国行售价曝光 :最低7499元/12999元起

    据官方此前宣布,三星将于7月26日也就是明天在韩国首尔举办Unpacked活动,届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
  • 上海举办人工智能大会活动,建设人工智能新高地

    人工智能大会在上海浦江两岸隆重拉开帷幕,人工智能新技术、新产品、新应用、新理念集中亮相。8月30日晚,作为大会的特色活动之一的上海人工智能发展盛典人工
Top