当前位置：首页 > 科技 > 互联网

FlagEval大语言模型评测9月榜：Baichuan 2排名第一

来源：责编：时间：2023-09-20 21:55:01 530观看

导读 9月19日消息，继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系FlagEval（天秤）公布最新9月榜单评测结果。FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平

9月19日消息，继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系FlagEval（天秤）公布最新9月榜单评测结果。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

据悉，在9月评测中，FlagEval进行了评测框架升级，细化「安全与价值观」与「推理能力」。依据最新版的能力框架，FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库v2.0，题目数量扩充3倍，采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性。

基于最新 CLCC v2.0主观评测数据集，FlagEval（天秤）9月榜重点评测了近期大热的 7 个开源对话模型。从整体结果来看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，准确率均超过 65%。

在基座模型榜单中，Baichuan 2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型。

在 SFT 模型榜单中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。

另外，值得注意的是，在客观评测两个榜单中，Baichuan 2均表现出优异性能，基础模型测试在中英文领域均全面超越Llama2。

本文链接：http://www.28at.com/showinfo-21-10600-0.htmlFlagEval大语言模型评测9月榜：Baichuan 2排名第一

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：周杰伦“骑”爱玛电动车15年 “电量”耗尽了吗？

下一篇：拉勾招聘联合知乎启动“2024秋招通关指南”

标签：

热门焦点

小米官宣：2023年上半年出货量中国第一！

今日早间，小米电视官方微博带来消息，称2023年小米电视上半年出货量达到了中国第一，同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
Golang 中的 io 包详解：组合接口

io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是对Reader和Writer接口的组合，
Flowable工作流引擎的科普与实践

一.引言当我们在日常工作和业务中需要进行各种审批流程时，可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
三万字盘点 Spring 九大核心基础功能

大家好，我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说，先上目录：图片友情提示，本文过长，建议收藏，嘿嘿嘿！一、资源管理资源管理是Spring的一个核心的基础功能，不
国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

2023年8月3日，三星电子举行Galaxy新品中国发布会，正式在国内推出了新一代折叠屏智能手机三星Galaxy Z Fold5与Galaxy Z Flip5，以及三星Galaxy Tab S9
OPPO K11样张首曝：千元机影像“卷”得真不错！

一直以来，OPPO K系列机型都保持着较为均衡的产品体验，历来都是2K价位的明星机型，去年推出的OPPO K10和OPPO K10 Pro两款机型凭借各自的出色配置，堪称有
OPPO Reno10 Pro英雄联盟定制礼盒公布：萨勒芬妮同款配色梦幻十足

5月24日，OPPO推出了全新的OPPO Reno 10系列，包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新机，全系标配了超光影长焦镜头，是迄今为止拍照
微软发布Windows 11新版引入全新任务栏状态

近日，微软发布了Windows 11新版，而Build 22563更新主要引入了几周前曝光的平板模式任务栏等，系统更流畅了。更新中，Windows 11加入了专门针对平板优化的任务栏
英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

据10 月 30 日外媒 TheVerge 消息报道，英特尔 Xe HPG Arc Alchemist 的正面实被曝光，不仅拥有 512 EU 版显卡，还拥有 128EU 的单风扇版本。另外，这款显卡 PCB

FlagEval大语言模型评测9月榜：Baichuan 2排名第一

小米官宣：2023年上半年出货量中国第一！

Golang 中的 io 包详解：组合接口

Flowable工作流引擎的科普与实践

三万字盘点 Spring 九大核心基础功能

国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

OPPO K11样张首曝：千元机影像“卷”得真不错！

OPPO Reno10 Pro英雄联盟定制礼盒公布：萨勒芬妮同款配色梦幻十足

微软发布Windows 11新版引入全新任务栏状态

英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

最新推荐

猜你喜欢

热门推荐

相关资讯