当前位置：首页 > 元宇宙 > AI

智源评测体系发布国内外“百模”评估结果出炉

来源：责编：时间：2024-05-20 17:49:51 268观看

导读2024年5月17日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度

2024年5月17日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。

●语言模型

在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。

●多模态模型

在理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出。

在中文语境下，国产大模型文生图能力与国际一流水平差距较小。

在文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

由于安全与价值观对齐是模型产业落地的关键，但海外模型与国内模型在该维度存在差异，因此语言模型主客观评测的总体排名不计入该单项分数。

语言模型主观评测结果显示，在中文语境下，字节跳动豆包Skylark2、OpenAIGPT-4位居第一、第二，国产大模型更懂中国用户。在语言模型客观评测中，OpenAIGPT-4、百川智能Baichuan3位居第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示，图文问答方面，阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAIGPT-4，LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

多模态生成模型文生图评测结果显示，OpenAIDALL-E3位列第一，智谱华章CogView3、meta-Imagine分居第二、第三，百度文心一格、字节跳动doubao-Image次之。

多模态生成模型文生视频，OpenAISora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。

注：

文生图模型的客观评测指标与主观感受差异巨大，有失效的迹象，因此排名以主观评测为准;Mdjourney基本无法理解中文提示词，因此排名靠后;仅使用其官方公布的prompts和视频片段与其他模型生成的视频进行对比评测，评测结果存在一定的偏差。

首次联合权威教育机构进行大模型K12学科测试

当前，大模型的发展具备了通用性，在逻辑推理能力上有显著提升，日趋接近人脑的特征。因此，在海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题，由海淀教师亲自评卷。

智源评测发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来有很大的提升空间。

北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

系统化构建文生视频模型主观评价体系

中国传媒大学智能媒体计算实验室负责人史萍教授表示，相较文本，视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量，更无法对生成视频的真实性、图文语义一致性等进行量化。因此，需要系统化构建针对文生视频模型的主观评价体系。

该评价体系，由智源研究院与中国传媒大学基于双方在大模型评测领域和视频质量评价领域的丰富科研成果与实践经验共同建立，在图文一致性、真实性、视频质量、美学质量四大方面给出多维度评分，为AIGC视频生成技术的应用及发展提供参考。

科学权威公正开放的智源评测体系

依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。

2023年6月，由智源研究院与多个高校团队共建的Flageval大模型评测平台上线，迄今为止已完成了1000多次覆盖全球多个开源大模型的评测，并持续发布评测结果，广泛地积累了国际领先的评测技术。

开放服务

1智源Flag eval天秤大模型评测平台

2 与Hugging Face社区合作的开放中文大语言模型评测榜单 (Open Chinese LLM Leaderboard)

3 首个借助大模型合成数据的多元异质信息检索评估基准--智源AirBench

智源研究院牵头成立了IEEE大模型评测标准小组P3419，组织20余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位，智源此次的模型评测，借鉴了该标准，采取了客观评测统一规则与主观评测多重校验打分相结合的方法。其中，开源模型采用模型发布方推荐的推理代码及运行环境，对所有模型统一使用业界通用的提示语，不针对模型做提示语的优化。

本次智源评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集CUC T2Vprompts。其中，主观题4000余道，均来源于自建原创未公开并保持高频迭代的主观评测集，严格校准打分标准，采取多人独立匿名评分、严格质检与抽检相结合的管理机制，降低主观偏差的影响。此外，为了更准确地评测语言模型的各项能力，智源专门对所有客观数据集的子数据集进行了能力标签映射。

科学权威公正开放，是智源评测的最高纲领。智源研究院院长王仲远表示，未来，智源将携手生态合作伙伴继续共建完善评测体系，促进模型性能的优化以及在多元复杂场景下的产业落地，推动大模型技术应用的有序发展。

最后需要说明的是，此次智源评测结果仍有一定的局限性：

1.本次评测主要集中于通用大模型的评测，还未覆盖到垂直领域大模型;主要目标是为国内大模型生态提供参考，因此侧重于在中文语境下的评估;通过API访问模型会与网页端访问有差异，在一定程度上也会影响模型表现。

2.本次评测各模型厂商发布的最新版本截至2024年4月20日，不代表各个厂商最新发布的模型性能表现。智源后续将持续、定期更新评测结果，欢迎模型厂商与智源交流、评测最新版本的模型能力。

3.虽然我们努力将更多数据集纳入本次评测，但由于资源和时间限制，仅精选了部分有代表性的数据集，后续我们也会持续扩充和新编数据集，将特别关注在复杂任务和垂直领域上的评测集建设，欢迎开放讨论，共建共享评测数据及工具。

4. 单次评测的结果一定存在偏差，智源也将持续跟踪大模型能力的发展，欢迎大家持续的关注和支持。

(作者：刘恒)

本文链接：http://www.28at.com/showinfo-45-5499-0.html智源评测体系发布国内外“百模”评估结果出炉

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：提供全天候健康服务,人民日报健康客户端上线“AI健康管家”

下一篇：以AI+产品矩阵赋能千行百业，普渡机器人召开2024年新品发布会

标签：

热门焦点

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

来源：首席商业评论2023年，最火的莫过于ChatGPT，席卷全球的同时也引发了生成式AI（人工智能）的投资热潮。在美股，ChatGPT相关概念股飙涨，以AI算力龙头英伟达为例，其股价年内一度累计上
关于ChatGPT的10点思考

作者：晏涛三寿近日ChatGPT又有大动作。5月19日，OpenAI在官网宣布正式发布App应用，并登录苹果应用商店。与网页版的聊天机器人相比，iOS应用程序的发布有望让更多人接触到ChatGPT
文心一言排名垫底，却成为百度业绩增长杠杆

文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后，百度公司热度大幅提升，文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日，百度（NASDAQ：BIDU/09888.HK）公布了
VR/AR迷失元宇宙“硝烟”

不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵，又随着元宇宙回归平静。1月份，微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员，其中负责混合现实硬件（MR）的Holo
如何对一款 NFT 项目进行价值评估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家，因为我相信我们正在见证社会
Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

今日《元宇宙新鲜事》有：扎克伯格透露正在为元宇宙研发语音助手；完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
元宇宙社交时代，华丽归来的超级QQ秀重构虚拟社交场景

作者:狂人不知不觉间，QQ已经迎来了第23个生日。作为国内社交平台的起点，QQ可谓是睥睨全网，不仅有庞大的用户群体，还将虚拟形象及QQ整合成在线虚拟社区，开启了时髦
NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元，世界正在走向数字化。报告显示，NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
我们为什么需要Web3，距离Web3的实现还有多远？

当今技术正在经历着重要的变革，许多公司正在改变他们的经营模式以求变得更加的灵活，其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3，

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

智源评测体系发布国内外“百模”评估结果出炉

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

关于ChatGPT的10点思考

文心一言排名垫底，却成为百度业绩增长杠杆

VR/AR迷失元宇宙“硝烟”

如何对一款 NFT 项目进行价值评估？

Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

元宇宙社交时代，华丽归来的超级QQ秀重构虚拟社交场景

NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

我们为什么需要Web3，距离Web3的实现还有多远？

最新推荐

汽车元宇宙，是概念还是未来？

元宇宙社交啫喱、希壤爆款迭出，腾讯慌了吗？

冰墩墩还能火多久？

多地释放积极信号，元宇宙正成为地方争先竞逐的主战场？

“我没搞懂元宇宙，但一天能赚9w块”

NFT也有黄牛？这家公司专门对付外挂作弊机器人

猜你喜欢

热门推荐

相关资讯

智源评测体系发布 国内外“百模”评估结果出炉

最新推荐

猜你喜欢

热门推荐

相关资讯

智源评测体系发布国内外“百模”评估结果出炉