当前位置:首页 > 科技  > 资讯

用户投出来的大模型榜单-GPT4o、讯飞星火位居前列

来源: 责编: 时间:2024-08-02 16:19:10 459观看
导读从去年的“百模大战”到今年的“优胜劣汰”,AI大模型赛道呈现赛马机制,不少国产大模型以GPT-4o为标杆快速迭代,在核心能力上持续赶超。近期,由国内权威大模型评估平台OpenCompass(司南)公布的CompassAr

从去年的“百模大战”到今年的“优胜劣汰”,AI大模型赛道呈现赛马机制,不少国产大模型以GPT-4o为标杆快速迭代,在核心能力上持续赶超。近期,由国内权威大模型评估平台OpenCompass(司南)公布的CompassArena周榜上,科大讯飞星火大模型连续三周位列前三,两次摘得第二桂冠。由于榜单采用专业用户投票方式,结合了用户对各款大模型的真实体验,更具客观性和说服力,含金量十足。Ydd28资讯网——每日最新资讯28at.com

微信截图_20240802113719副本Ydd28资讯网——每日最新资讯28at.com

OpenCompass(司南)是由上海人工智能实验室发布的开源大模型评测体系,目前已成为业界权威的大模型评估平台,涵盖学科、语言、知识、理解、推理等评测维度,可全面评估大模型的综合能力。在最新三期专业用户投票的周榜评选中,讯飞星火以Elo-1078和Elo-1081位居前三,榜单前四强还出现阿里通义千问和百度文心一言的身影,它们共同组成了国产大模型的第一梯队,不断向榜单第一名的GPT-4o发起挑战。Ydd28资讯网——每日最新资讯28at.com

配图 (1)Ydd28资讯网——每日最新资讯28at.com

根据CompassArena榜单排名规则,平台会利用Bradley-Terry模型,基于历史匿名对战数据评估大模型竞技场Elo的等级分数,并使用该分数对大模型进行排名。最终数据可以公正、开放、透明的反映当前各家大模型产品的综合实力。Ydd28资讯网——每日最新资讯28at.com

作为明确提出对标OpenAI的国内大模型公司,科大讯飞在今年6月27日发布的星火V4.0版本上,已完成了对GPT-4 Turbo的整体超越。根据八个国际主流测试集的横向评测,讯飞星火V4.0排名第一,在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面完成了整体超越。这些测试集既有HumanEval、WinoGrande、GPQA等英文评测,也有C-Eval、CMMLU等中文评测,充分展现了讯飞星火的全方位实力。Ydd28资讯网——每日最新资讯28at.com

此前,讯飞星火还在国际权威的《麻省理工科技评论》横评中脱颖而出,凭借领先的语言能力、数学、理综等多项核心能力,超越了同期的其它国产大模型选手,并以1013分的总分斩获国产主流大模型榜首席位。该机构还认为,讯飞星火在工作提效方面具有明显优势,是一款优秀的提效类工具。Ydd28资讯网——每日最新资讯28at.com

目前,讯飞星火凭借领先技术优势和出色的体验,持续领跑国内大模型第一梯队。根据讯飞星火V4.0发布会上公布的数据,其安卓端APP的累计下载量已经高达1.31亿次,位列国内工具类通用大模型APP第一。更有大量围绕日常工作、生活与学习的实用助手“源源不断”地涌现,持续帮助用户解放生产力,释放想象力。Ydd28资讯网——每日最新资讯28at.com

历经一年多迭代,讯飞星火快速成长为国内领先的大模型,对标GPT-4o的下一代版本也在研发中。随着核心能力的持续升级,讯飞星火不仅将稳居国产大模型第一梯队,更有机会成为国产大模型的代表去对战GPT-4o。Ydd28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-16-105421-0.html用户投出来的大模型榜单-GPT4o、讯飞星火位居前列

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 坚持打造更环保的移动产品 三星手机让科技环保更加具象化

下一篇: 听花酒高调“烧钱”回归,投放超15万块电梯海报,有终端卖2450元/瓶

标签:
  • 热门焦点
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    2023年上半年已经正式过去了,我们也迎来了安兔兔V10版本,在新的骁龙8Gen3和天玑9300发布之前,性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主,至于那颗3.36GHz的骁龙8Gen2领先
  • 学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 最“俊美”淘宝卖家,靠直播和短视频圈粉,上架秒光,年销3000万

    来源 | 电商在线文|易琬玉编辑|斯问受访店铺:Ringdoll戒之人形图源:微博@御座的黄山、“Ringdoll戒之人形”淘宝店铺有关外貌的评价,黄山已经听累了。生于1985年的他,哪
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • ESG的面子与里子

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之三伏大幕拉起,各地高温预警不绝,但处于厄尔尼诺大“烤”之下的除了众生,还有各大企业发布的ESG报告。ESG是“环境保
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 重估百度丨大模型,能撑起百度的“今天”吗?

    自象限原创 作者|程心 罗辑2023年之前,对于自己的“今天”,百度也很迷茫。“新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”这是2022年底,李彦宏
  • OPPO K11搭载长寿版100W超级闪充:26分钟充满100%

    据此前官方宣布,OPPO将于7月25日也就是今天下午14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖
Top