当前位置:首页 > 元宇宙 > AI

智源评测体系发布 国内外“百模”评估结果出炉

来源: 责编: 时间:2024-05-20 17:49:51 252观看
导读2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度

2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。Bou28资讯网——每日最新资讯28at.com

本次智源评测,分别从主观、客观两个维度考察了语言模型简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。Bou28资讯网——每日最新资讯28at.com

●语言模型Bou28资讯网——每日最新资讯28at.com

在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况。Bou28资讯网——每日最新资讯28at.com

●多模态模型Bou28资讯网——每日最新资讯28at.com

理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出。Bou28资讯网——每日最新资讯28at.com

在中文语境下,国产大模型文生图能力与国际一流水平差距较小。Bou28资讯网——每日最新资讯28at.com

文生视频能力上,对比各家公布的演示视频长度和质量,Sora有明显优势,其他开放评测的文生视频模型中,国产模型PixVerse表现优异。Bou28资讯网——每日最新资讯28at.com

由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数Bou28资讯网——每日最新资讯28at.com

语言模型主观评测结果显示,在中文语境下,字节跳动豆包Skylark2、OpenAIGPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAIGPT-4、百川智能Baichuan3位居第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。Bou28资讯网——每日最新资讯28at.com

图片 1.png

多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAIGPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。Bou28资讯网——每日最新资讯28at.com

图片 2.png

多模态生成模型文生图评测结果显示,OpenAIDALL-E3位列第一,智谱华章CogView3、meta-Imagine分居第二、第三,百度文心一格、字节跳动doubao-Image次之。Bou28资讯网——每日最新资讯28at.com

多模态生成模型文生视频,OpenAISora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。Bou28资讯网——每日最新资讯28at.com

图片 3.png

注:Bou28资讯网——每日最新资讯28at.com

文生图模型的客观评测指标与主观感受差异巨大,有失效的迹象,因此排名以主观评测为准;Mdjourney基本无法理解中文提示词,因此排名靠后;仅使用其官方公布的prompts和视频片段与其他模型生成的视频进行对比评测,评测结果存在一定的偏差。Bou28资讯网——每日最新资讯28at.com

首次联合权威教育机构进行大模型K12学科测试Bou28资讯网——每日最新资讯28at.com

当前,大模型的发展具备了通用性,在逻辑推理能力上有显著提升,日趋接近人脑的特征。因此,在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异,其中,答案不唯一的主观题,由海淀教师亲自评卷。Bou28资讯网——每日最新资讯28at.com

图片 4.png

智源评测发现,模型在综合学科能力与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。Bou28资讯网——每日最新资讯28at.com

图片 5.png

北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出,在语文、历史等人文学科的考试中,模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时,模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题,模型反而更擅长复杂的英语题。解理科题目时,模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时,模型依然存在明显的“幻觉”Bou28资讯网——每日最新资讯28at.com

系统化构建文生视频模型主观评价体系Bou28资讯网——每日最新资讯28at.com

中国传媒大学智能媒体计算实验室负责人史萍教授表示,相较文本,视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量,更无法对生成视频的真实性、图文语义一致性等进行量化。因此,需要系统化构建针对文生视频模型的主观评价体系Bou28资讯网——每日最新资讯28at.com

图片 6.png

该评价体系,由智源研究院与中国传媒大学基于双方在大模型评测领域和视频质量评价领域的丰富科研成果与实践经验共同建立,在图文一致性、真实性、视频质量、美学质量四大方面给出多维度评分,为AIGC视频生成技术的应用及发展提供参考。Bou28资讯网——每日最新资讯28at.com

科学权威公正开放的智源评测体系Bou28资讯网——每日最新资讯28at.com

依托科技部“人工智能基础模型支撑平台与评测技术”工信部“大模型公共服务平台”项目,智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。Bou28资讯网——每日最新资讯28at.com

2023年6月,由智源研究院与多个高校团队共建的Flageval大模型评测平台上线,迄今为止已完成了1000多次覆盖全球多个开源大模型的评测,并持续发布评测结果,广泛地积累了国际领先的评测技术。Bou28资讯网——每日最新资讯28at.com

开放服务Bou28资讯网——每日最新资讯28at.com

1智源Flag eval天秤大模型评测平台Bou28资讯网——每日最新资讯28at.com

2 与Hugging Face社区合作的开放中文大语言模型评测榜单 (Open Chinese LLM Leaderboard)Bou28资讯网——每日最新资讯28at.com

3 首个借助大模型合成数据的多元异质信息检索评估基准--智源AirBenchBou28资讯网——每日最新资讯28at.com

智源研究院牵头成立了IEEE大模型评测标准小组P3419,组织20余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准,采取了客观评测统一规则与主观评测多重校验打分相结合的方法。其中,开源模型采用模型发布方推荐的推理代码及运行环境,对所有模型统一使用业界通用的提示语,不针对模型做提示语的优化Bou28资讯网——每日最新资讯28at.com

本次智源评测使用20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集,如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集CUC T2Vprompts。其中,主观题4000余道,均来源于自建原创未公开并保持高频迭代的主观评测集,严格校准打分标准,采取多人独立匿名评分、严格质检与抽检相结合的管理机制,降低主观偏差的影响。此外,为了更准确地评测语言模型的各项能力,智源专门对所有客观数据集的子数据集进行了能力标签映射Bou28资讯网——每日最新资讯28at.com

图片 7.png

科学权威公正开放,是智源评测的最高纲领。智源研究院院长王仲远表示,未来,智源将携手生态合作伙伴继续共建完善评测体系,促进模型性能的优化以及在多元复杂场景下的产业落地,推动大模型技术应用的有序发展。Bou28资讯网——每日最新资讯28at.com

最后需要说明的是,此次智源评测结果仍有一定的局限性:Bou28资讯网——每日最新资讯28at.com

1.本次评测主要集中于通用大模型的评测,还未覆盖到垂直领域大模型;主要目标是为国内大模型生态提供参考,因此侧重于在中文语境下的评估;通过API访问模型会与网页端访问有差异,在一定程度上也会影响模型表现。Bou28资讯网——每日最新资讯28at.com

2.本次评测各模型厂商发布的最新版本截至2024年4月20日,不代表各个厂商最新发布的模型性能表现。智源后续将持续、定期更新评测结果,欢迎模型厂商与智源交流、评测最新版本的模型能力。Bou28资讯网——每日最新资讯28at.com

3.虽然我们努力将更多数据集纳入本次评测,但由于资源和时间限制,仅精选了部分有代表性的数据集,后续我们也会持续扩充和新编数据集,将特别关注在复杂任务和垂直领域上的评测集建设,欢迎开放讨论,共建共享评测数据及工具。Bou28资讯网——每日最新资讯28at.com

4. 单次评测的结果一定存在偏差,智源也将持续跟踪大模型能力的发展,欢迎大家持续的关注和支持。Bou28资讯网——每日最新资讯28at.com

(作者:刘恒)Bou28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-5499-0.html智源评测体系发布 国内外“百模”评估结果出炉

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 提供全天候健康服务,人民日报健康客户端上线“AI健康管家”

下一篇: 以AI+产品矩阵赋能千行百业,普渡机器人召开2024年新品发布会

标签:
  • 热门焦点
  • 不同于传统数字经济,元宇宙赋予商业生态更多数字资产价值!

    作者:中科基大数据元宇宙是一个去中心化的开放平台,而为了维护这样的平台,需要建立一个公平的游戏规则,确保每个元宇宙的参与者通过这个规则都可以挣到钱,他们的利益都可以得到保
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 智能人机交互技术的春晚大考

    1月初的一个早晨,京东智能客户服务产品部紧急开会,进行关于尚未对外公布的“X项目”的初讨论。1月5日,这个神秘的X项目对外公布,京东成为央视2022年春晚独家互动合
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • 元宇宙的应用行业研究:娱乐可能是元宇宙落地最快的场景之一

    近日,毕马威正式发布其《初探元宇宙》报告,这也是毕马威在元宇宙领域发布的首份报告。报告指出,元宇宙在以下十个领域的应用场景尤其值得期待,包括娱乐、社交、零
Top