当前位置:首页 > 科技  > 软件

中文大模型 2024 半年报出炉,通义千问通用能力国内第一

来源: 责编: 时间:2024-07-10 17:52:20 249观看
导读 7 月 10 日消息,中文大模型测评基准 SuperCLUE 发布 2024 上半年报告,披露针对国内外 33 个大模型的综合测评结果。阿里通义千问的开源模型 Qwen2-72B 成为排名第一的中国大模型,也是全球最强的开源模型,SuperCLU

7 月 10 日消息,中文大模型测评基准 SuperCLUE 发布 2024 上半年报告,披露针对国内外 33 个大模型的综合测评结果。阿里通义千问的开源模型 Qwen2-72B 成为排名第一的中国大模型,也是全球最强的开源模型,SuperCLUE 报告认为通义千问“超过众多国内外闭源模型”,“引领全球的开源生态”。Pmk28资讯网——每日最新资讯28at.com

CLUE(The Chinese Language Understanding Evaluation)是发起于 2019 年的中文语言理解测评基准,致力于开展科学、客观、中立的语言模型评测,SuperCLUE 聚焦于通用大模型的综合性测评。Pmk28资讯网——每日最新资讯28at.com

Pmk28资讯网——每日最新资讯28at.com

本次半年度测评针对国内外 33 个大模型的 6 月份版本进行,由理科、文科和 Hard 三大维度构成。理科任务包括计算、逻辑推理、代码测评;文科任务分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评;Hard 任务主要是精确指令遵循测评,未来还将推出复杂多步推理和高难度问题解决等测评。Pmk28资讯网——每日最新资讯28at.com

Pmk28资讯网——每日最新资讯28at.com

图说:SuperCLUE 国际最好模型(GPT-4o)与国内最好模型(Qwen2-72)的整体性能对比Pmk28资讯网——每日最新资讯28at.com

从代表通用能力的一级总分来看,OpenAI 的 GPT-4o 以 81 分高居榜首,Claude-3.5-Sonnet 与通义千问开源模型 Qwen2-72B-Instruct 并列第二,得分均为 77。通义千问既是排名最高的中国大模型,也是排名最高的开源大模型,性能超越文心一言 4.0、讯飞星火 V4.0、Llama-3-70B 等开闭源大模型。Pmk28资讯网——每日最新资讯28at.com

具体到理科、文科、Hard 三个维度来看,国内外大模型的理科能力存在一定差距,GPT-4o 以绝对优势领跑,Qwen2-72B 的理科测试比 GPT-4o 少 5 分;文科任务上,大模型之间的区分度不明显,GPT-4o 与 Qwen2-72B 等模型的得分均为 76;精确指令遵循能力方面,仅有 GPT-4o 和 Claude 3.5 Sonnet 得分超过 80,国内表现最好的 Qwen2-72B 比 GPT-4o 低 6 分。Pmk28资讯网——每日最新资讯28at.com

Pmk28资讯网——每日最新资讯28at.com

报告同时公布了端侧小模型测评榜单,通义千问 70 亿参数开源模型 Qwen2-7B 排名第一,打败了上一代版本的 Qwen1.5-32B(320 亿参数)和 Llama-3-8B-Instruct(130 亿参数),展现了更小尺寸的模型的极致性能。报告认为,2024 年上半年端侧小模型进展迅速、表现惊艳,极大提升了落地的可行性。Pmk28资讯网——每日最新资讯28at.com

据悉,Qwen2 是阿里在今年 6 月推出的通义千问第二代开源模型,已先后登顶国内外多个权威榜单,引领中国开源模型强势崛起。Qwen 系列开源模型下载量已经突破 2000 万次。SuperCLUE 报告点评:“综合来看,Qwen2-72B 整体能力不俗,引领全球的开源生态,是一个非常有竞争力的通用开源大模型,可应用于推理、数理分析、信息处理或相对专业复杂场景,重点推荐应用于工业、金融、医疗、汽车等垂直专业场景。”Pmk28资讯网——每日最新资讯28at.com

附:Pmk28资讯网——每日最新资讯28at.com

・SuperCLUE 官方推文链接Pmk28资讯网——每日最新资讯28at.com

・《中文大模型基准评测 2024 上半年报告》原文链接:Pmk28资讯网——每日最新资讯28at.com

www.cluebenchmarks.com/superclue_24h1Pmk28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-100065-0.html中文大模型 2024 半年报出炉,通义千问通用能力国内第一

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 三星电子:计划在 HBM4 世代为客户开发多样化定制 HBM 内存

下一篇: 同比增长 105%,报告称 HBM 芯片明年月产能突破 54 万颗

标签:
  • 热门焦点
  • 把LangChain跑起来的三个方法

    使用LangChain开发LLM应用时,需要机器进行GLM部署,好多同学第一步就被劝退了,那么如何绕过这个步骤先学习LLM模型的应用,对Langchain进行快速上手?本片讲解3个把LangChain跑起来
  • 让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • iQOO 11S评测:行业唯一的200W标准版旗舰

    【Techweb评测】去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,该机不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞
  • 英特尔Xe-HP项目终止,将专注Xe-HPC/HPG系列显卡

    据10 月 31 日消息报道,英特尔高级副总裁兼加速计算系统和图形事业部总经理 表示,Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服
  • 苹果140W USB-C充电器:采用氮化镓技术

    据10 月 30 日 9to5 Mac 消息报道,当苹果推出新的 MacBook Pro 2021 时,该公司还推出了新的 140W USB-C 充电器,附赠在 MacBook Pro 16 英寸机型的盒子里,也支
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
Top