当前位置：首页 > 科技 > 测评

新测试基准发布最强开源Llama 3尴尬了

来源：责编：时间：2024-04-23 09:13:14 306观看

导读如果试题太简单，学霸和学渣都能考90分，拉不开差距……随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。大模型竞技场背后组织LMSYS推出下

如果试题太简单，学霸和学渣都能考90分，拉不开差距……

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。

大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard，引起广泛关注。

Llama 3的两个指令微调版本实力到底如何，也有了最新参考。

新测试基准发布最强开源Llama 3尴尬了

与之前大家分数都相近的MT Bench相比，Arena-Hard区分度从22.6%提升到87.4%，孰强孰弱一目了然。

Arena-Hard利用竞技场实时人类数据构建，与人类偏好一致率也高达89.1%。

除了上面两个指标都达到SOTA之外，还有一个额外的好处：

实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词，减轻潜在的数据泄露。

并且新模型发布后，无需再等待一周左右时间让人类用户参与投票，只需花费25美元快速运行测试管线，即可得到结果。

有网友评价，使用真实用户提示词而不是高中考试来测试，真的很重要。

新测试基准发布最强开源Llama 3尴尬了

新基准测试如何运作？

简单来说，通过大模型竞技场20万个用户查询中，挑选500个高质量提示词作为测试集。

首先，挑选过程中确保多样性，也就是测试集应涵盖广泛的现实世界话题。

为了确保这一点，团队采用BERTopic中主题建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）转换每个提示，使用 UMAP 降低维度，并使用基于层次结构的模型聚类算法 (HDBSCAN) 来识别聚类，最后使用GPT-4-turbo进行汇总。

新测试基准发布最强开源Llama 3尴尬了

同时确保入选的提示词具有高质量，有七个关键指标来衡量：

-具体性：提示词是否要求特定的输出？

-领域知识：提示词是否涵盖一个或多个特定领域？

-复杂性：提示词是否有多层推理、组成部分或变量？

-解决问题：提示词是否直接让AI展示主动解决问题的能力？

-创造力：提示词是否涉及解决问题的一定程度的创造力？

-技术准确性：提示词是否要求响应具有技术准确性？

-实际应用：提示词是否与实际应用相关？

新测试基准发布最强开源Llama 3尴尬了

使用GPT-3.5-Turbo和GPT-4-Turbo对每个提示进行从 0 到 7 的注释，判断满足多少个条件。然后根据提示的平均得分给每个聚类评分。

高质量的问题通常与有挑战性的话题或任务相关，比如游戏开发或数学证明。

新测试基准发布最强开源Llama 3尴尬了

新基准测试准吗？

Arena-Hard目前还有一个弱点：使用GPT-4做裁判更偏好自己的输出。官方也给出了相应提示。

可以看出，最新两个版本的GPT-4分数高过Claude 3 Opus一大截，但在人类投票分数中差距并没有那么明显。

新测试基准发布最强开源Llama 3尴尬了

其实关于这一点，最近已经有研究论证，前沿模型都会偏好自己的输出。

新测试基准发布最强开源Llama 3尴尬了

研究团队还发现，AI天生就可以判断出一段文字是不是自己写的，经过微调后自我识别的能力还能增强，并且自我识别能力与自我偏好线性相关。

新测试基准发布最强开源Llama 3尴尬了

那么使用Claude 3来打分会使结果产生什么变化？LMSYS也做了相关实验。

首先，Claude系列的分数确实会提高。

新测试基准发布最强开源Llama 3尴尬了

但令人惊讶的是，它更喜欢几种开放模型如Mixtral和零一万物Yi，甚至对GPT-3.5的评分都有明显提高。

总体而言，使用Claude 3打分的区分度和与人类结果的一致性都不如GPT-4。

新测试基准发布最强开源Llama 3尴尬了

所以也有很多网友建议，使用多个大模型来综合打分。

新测试基准发布最强开源Llama 3尴尬了

除此之外，团队还做了更多消融实验来验证新基准测试的有效性。

比如在提示词中加入“让答案尽可能详尽”，平均输出长度更高，分数确实会提高。

但把提示词换成“喜欢闲聊”，平均输出长度也有提高，但分数提升就不明显。

新测试基准发布最强开源Llama 3尴尬了

此外在实验过程中还有很多有意思的发现。

比如GPT-4来打分非常严格，如果回答中有错误会狠狠扣分；而Claude 3即使识别出小错误也会宽大处理。

对于代码问题，Claude 3倾向于提供简单结构、不依赖外部代码库，能帮助人类学习编程的答案；而GPT-4-Turbo更倾向最实用的答案，不管其教育价值如何。

另外即使设置温度为0，GPT-4-Turbo也可能产生略有不同的判断。

从层次结构可视化的前64个聚类中也可以看出，大模型竞技场用户的提问质量和多样性确实是高。

新测试基准发布最强开源Llama 3尴尬了

这里面也许就有你的贡献。

Arena-Hard GitHub：

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace：

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型竞技场：

https://arena.lmsys.org

参考链接：

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04-19-arena-hard/

本文链接：http://www.28at.com/showinfo-25-84608-0.html新测试基准发布最强开源Llama 3尴尬了

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：提车三天特斯拉中国突然降价一万四车主：太疼了！

下一篇：小米平板6S Pro评测：小米平板的最终形态

标签：

热门焦点

6月安卓手机性价比榜：Note 12 Turbo断层式碾压

6月份有一个618，虽然这是京东周年庆的日子，但别的电商也都不约而同的跟进了，反正促销没坏处，厂商和用户都能满意。618期间一些产品也出现了历史低价，那么各个价位段的产品性价比
一年经验在二线城市面试后端的经验分享

忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验，请果断划走，对你没啥帮助~主人公这篇文章内容来自「升职加薪」星球星友的投稿，坐
多线程开发带来的问题与解决方法

使用多线程主要会带来以下几个问题：（一）线程安全问题　　线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间，该数据被其他的线程所修改，那么对于当前线程而言，该线程
微信语音大揭秘：为什么禁止转发？

大家好，我是你们的小米。今天，我要和大家聊一个有趣的话题：为什么微信语音不可以转发？这是一个我们经常在日常使用中遇到的问题，也是一个让很多人好奇的问题。让我们一起来揭开这
三分钟白话RocketMQ系列—— 如何发送消息

我们知道RocketMQ主要分为消息生产、存储（消息堆积）、消费三大块领域。那接下来，我们白话一下，RocketMQ是如何发送消息的，揭秘消息生产全过程。注意，如果白话中不小心提到相关代
猿辅导与新东方的两种“归途”

作者｜卓心月出品｜零态LT（ID：LingTai_LT）如何成为一家伟大企业？答案一定是对“势”的把握，这其中最关键的当属对企业战略的制定，且能够站在未来看现在，即使这其中的
重估百度丨大模型，能撑起百度的“今天”吗?

自象限原创作者｜程心罗辑2023年之前，对于自己的“今天”，百度也很迷茫。“新业务到 2022 年底还是 0，希望 2023 年出来一个 1。”这是2022年底，李彦宏
iQOO 11S评测：行业唯一的200W标准版旗舰

【Techweb评测】去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，该机不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞
Windows 11发布，微软一改往常对老机型开放的态度

距离 Windows 11 发布已经过去一周，在过去一周里，很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是，在这次大

新测试基准发布最强开源Llama 3尴尬了

6月安卓手机性价比榜：Note 12 Turbo断层式碾压

一年经验在二线城市面试后端的经验分享

多线程开发带来的问题与解决方法

微信语音大揭秘：为什么禁止转发？

三分钟白话RocketMQ系列—— 如何发送消息

猿辅导与新东方的两种“归途”

重估百度丨大模型，能撑起百度的“今天”吗?

iQOO 11S评测：行业唯一的200W标准版旗舰

Windows 11发布，微软一改往常对老机型开放的态度

最新推荐

猜你喜欢

热门推荐

相关资讯

新测试基准发布 最强开源Llama 3尴尬了

最新推荐

猜你喜欢

热门推荐

相关资讯

新测试基准发布最强开源Llama 3尴尬了