当前位置:首页 > 科技  > 软件

斯坦福 2025 年 HAI 报告出炉,国产大模型仅讯飞星火入围 Mix-Eval 前十

来源: 责编: 时间:2025-04-09 12:35:42 191观看
导读 2025 年 4 月 8 日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》(HAI 报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火 4.0(Spark 4.0)凭借其在“MixEval

2025 年 4 月 8 日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》(HAI 报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火 4.0(Spark 4.0)凭借其在“MixEval-Hard”测试中的出色表现,成为国内唯一入围前十的中文大模型,在所有国产大模型中排名第一,展示出强劲的技术实力与国际竞争力。s1V28资讯网——每日最新资讯28at.com

s1V28资讯网——每日最新资讯28at.com

MixEval 是本次 HAI 报告引入的一项全新评测标准,专为评估大语言模型在复杂真实语言任务中的表现,尤其聚焦于“分布式用户查询”和“复杂问题处理能力”。在更具挑战性的 MixEval-Hard 基准测试中,讯飞星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多个国际知名模型以及通义千问等国内模型,成为唯一入榜前十的中国大模型选手。s1V28资讯网——每日最新资讯28at.com

s1V28资讯网——每日最新资讯28at.com

从报告来看,在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”,以 72.0 分遥遥领先,其次是 Anthropic 的 Claude 3.5 Sonnet(68.1 分)以及 Meta 推出的 LLaMA-3 405B-Instruct(66.2 分)。讯飞星火 4.0 紧随亚马逊旗下模型 Mistral Large2,以 0.4 的劣势排在第十名,在多个维度上展现出不俗的语言理解和推理能力。s1V28资讯网——每日最新资讯28at.com

MixEval-Hard 测试体系包括“过滤筛选”“语料注释”“评估”和“动态更新”等多个环节,模拟真实场景下用户与模型的交互过程,是目前衡量模型处理复杂任务能力最具代表性的基准之一。其涵盖多模态能力、事实一致性、推理能力等综合指标,被业界称为“大模型能力大考”。s1V28资讯网——每日最新资讯28at.com

作为科大讯飞旗下的重要战略产品,讯飞星火大模型自 2023 年发布以来不断迭代升级。其 4.0 版本于 2024 年 6 月发布的,在语义理解、逻辑推理、跨语种翻译等多个领域都实现突破。2025 年 3 月 3 日,讯飞星火发布深度推理模型 X1 在数学能力上大幅跃升,以 70B 参数规模便追平了 o1 和 DeepSeek-R1。尤其针对小初高中文测试集(来自 2023/2024 各学段考试真题 / 模拟题 / 竞赛题),星火 X1 拿下 SOTA。令人振奋的是,这一切全是在全国产算力平台上实现的。s1V28资讯网——每日最新资讯28at.com

值得注意的是,本次 HAI 报告也指出,虽然中美在 AI 能力发展上仍存在差距,但中国本土模型正在以“快马加鞭”的速度追赶国际巨头,中美顶级 AI 模型的性能差距已经缩小到了 0.3%(2023 年,这一数字还是 20%),国产大模型正在迈向全球舞台的中心。s1V28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 报告出炉,国产大模型仅讯飞星火入围 Mix-Eval 前十

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 江波龙推出企业级 SATA 固态硬盘 UNCIA 3856:容量覆盖 480GB 至 7.68TB

下一篇: 《刺客信条:影》两大主机平台表现迥异,PS5销量不佳真相何在?

标签:
  • 热门焦点
  • 《英雄联盟》夏季赛总决赛今日开打!JDG对阵LNG首发名单来了 Knight:准备三连冠

    8月5日消息,今日17:00,《英雄联盟》2023LPL夏季赛总决赛将正式开打,由JDG对阵LNG。对两支队伍来说,这场比赛不仅要争夺夏季赛冠军,更要决定谁才是LPL赛区一
  • Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 重估百度丨“晚熟”的百度云,能等到春天吗?

    ©自象限原创作者|程心排版|王喻可2016年7月13日,百度云计算战略发布会在北京举行,宣告着百度智能云的正式启程。彼时的会场座无虚席,甚至排队排到了门外,在场的所有人几乎都
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 回归OPPO两年,一加赢了销量,输了品牌

    成为OPPO旗下主打性能的先锋品牌后,一加屡创佳绩。今年618期间,一加手机全渠道销量同比增长362%,凭借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加
  • 联想YOGA 16s 2022笔记本将要推出,屏幕支持触控功能

    联想此前宣布,将于11月2日19:30召开联想秋季轻薄新品发布会,推出联想 YOGA 16s 2022 笔记本等新品。官方称,YOGA 16s 2022 笔记本将搭载 16 英寸屏幕,并且是一
Top