当前位置:首页 > 科技  > 软件

斯坦福 2025 年 HAI 报告出炉,国产大模型仅讯飞星火入围 Mix-Eval 前十

来源: 责编: 时间:2025-04-09 12:35:42 181观看
导读 2025 年 4 月 8 日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》(HAI 报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火 4.0(Spark 4.0)凭借其在“MixEval

2025 年 4 月 8 日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》(HAI 报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火 4.0(Spark 4.0)凭借其在“MixEval-Hard”测试中的出色表现,成为国内唯一入围前十的中文大模型,在所有国产大模型中排名第一,展示出强劲的技术实力与国际竞争力。P3F28资讯网——每日最新资讯28at.com

P3F28资讯网——每日最新资讯28at.com

MixEval 是本次 HAI 报告引入的一项全新评测标准,专为评估大语言模型在复杂真实语言任务中的表现,尤其聚焦于“分布式用户查询”和“复杂问题处理能力”。在更具挑战性的 MixEval-Hard 基准测试中,讯飞星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多个国际知名模型以及通义千问等国内模型,成为唯一入榜前十的中国大模型选手。P3F28资讯网——每日最新资讯28at.com

P3F28资讯网——每日最新资讯28at.com

从报告来看,在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”,以 72.0 分遥遥领先,其次是 Anthropic 的 Claude 3.5 Sonnet(68.1 分)以及 Meta 推出的 LLaMA-3 405B-Instruct(66.2 分)。讯飞星火 4.0 紧随亚马逊旗下模型 Mistral Large2,以 0.4 的劣势排在第十名,在多个维度上展现出不俗的语言理解和推理能力。P3F28资讯网——每日最新资讯28at.com

MixEval-Hard 测试体系包括“过滤筛选”“语料注释”“评估”和“动态更新”等多个环节,模拟真实场景下用户与模型的交互过程,是目前衡量模型处理复杂任务能力最具代表性的基准之一。其涵盖多模态能力、事实一致性、推理能力等综合指标,被业界称为“大模型能力大考”。P3F28资讯网——每日最新资讯28at.com

作为科大讯飞旗下的重要战略产品,讯飞星火大模型自 2023 年发布以来不断迭代升级。其 4.0 版本于 2024 年 6 月发布的,在语义理解、逻辑推理、跨语种翻译等多个领域都实现突破。2025 年 3 月 3 日,讯飞星火发布深度推理模型 X1 在数学能力上大幅跃升,以 70B 参数规模便追平了 o1 和 DeepSeek-R1。尤其针对小初高中文测试集(来自 2023/2024 各学段考试真题 / 模拟题 / 竞赛题),星火 X1 拿下 SOTA。令人振奋的是,这一切全是在全国产算力平台上实现的。P3F28资讯网——每日最新资讯28at.com

值得注意的是,本次 HAI 报告也指出,虽然中美在 AI 能力发展上仍存在差距,但中国本土模型正在以“快马加鞭”的速度追赶国际巨头,中美顶级 AI 模型的性能差距已经缩小到了 0.3%(2023 年,这一数字还是 20%),国产大模型正在迈向全球舞台的中心。P3F28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 报告出炉,国产大模型仅讯飞星火入围 Mix-Eval 前十

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 江波龙推出企业级 SATA 固态硬盘 UNCIA 3856:容量覆盖 480GB 至 7.68TB

下一篇: 《刺客信条:影》两大主机平台表现迥异,PS5销量不佳真相何在?

标签:
  • 热门焦点
  • 6月iOS设备性能榜:M2稳居榜首 A系列只能等一手3nm来救

    没有新品发布,自然iOS设备性能榜的上榜设备就没有什么更替,仅仅只有跑分变化而产生的排名变动,毕竟苹果新品的发布节奏就是这样的,一年下来也就几个移动端新品,不会像安卓厂商,一
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 小红书1周涨粉49W+,我总结了小白可以用的N条涨粉笔记

    作者:黄河懂运营一条性教育视频,被54万人“珍藏”是什么体验?最近,情感博主@公主是用鲜花做的,火了!仅仅凭借一条视频,光小红书就有超过128万人,为她疯狂点赞!更疯狂的是,这
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • iQOO 11S或7月上市:搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

    去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,iQOO 11不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞屏,同时在快充
  • OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    日前OPPO官方宣布,全新的OPPO K11将于7月25日正式发布,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位影像表
  • 荣耀Magic4 至臻版 首创智慧隐私通话 强劲影音系统

    2022年第一季度临近尾声,在该季度内,许多品牌陆续发布自己的最新产品,让大家从全新的角度来了解当今的手机技术。手机是电子设备中,更新迭代十分迅速的一款产品,基
Top