当前位置:首页 > 科技  > 测评

新测试基准发布 最强开源Llama 3尴尬了

来源: 责编: 时间:2024-04-23 09:13:14 306观看
导读 如果试题太简单,学霸和学渣都能考90分,拉不开差距……随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。大模型竞技场背后组织LMSYS推出下

如果试题太简单,学霸和学渣都能考90分,拉不开差距……N9H28资讯网——每日最新资讯28at.com

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。N9H28资讯网——每日最新资讯28at.com

大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。N9H28资讯网——每日最新资讯28at.com

Llama 3的两个指令微调版本实力到底如何,也有了最新参考。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

与之前大家分数都相近的MT Bench相比,Arena-Hard区分度从22.6%提升到87.4%,孰强孰弱一目了然。N9H28资讯网——每日最新资讯28at.com

Arena-Hard利用竞技场实时人类数据构建,与人类偏好一致率也高达89.1%。N9H28资讯网——每日最新资讯28at.com

除了上面两个指标都达到SOTA之外,还有一个额外的好处:N9H28资讯网——每日最新资讯28at.com

实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词,减轻潜在的数据泄露。N9H28资讯网——每日最新资讯28at.com

并且新模型发布后,无需再等待一周左右时间让人类用户参与投票,只需花费25美元快速运行测试管线,即可得到结果。N9H28资讯网——每日最新资讯28at.com

有网友评价,使用真实用户提示词而不是高中考试来测试,真的很重要。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

新基准测试如何运作?N9H28资讯网——每日最新资讯28at.com

简单来说,通过大模型竞技场20万个用户查询中,挑选500个高质量提示词作为测试集。N9H28资讯网——每日最新资讯28at.com

首先,挑选过程中确保多样性,也就是测试集应涵盖广泛的现实世界话题。N9H28资讯网——每日最新资讯28at.com

为了确保这一点,团队采用BERTopic中主题建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)转换每个提示,使用 UMAP 降低维度,并使用基于层次结构的模型聚类算法 (HDBSCAN) 来识别聚类,最后使用GPT-4-turbo进行汇总。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

同时确保入选的提示词具有高质量,有七个关键指标来衡量:N9H28资讯网——每日最新资讯28at.com

-具体性:提示词是否要求特定的输出?N9H28资讯网——每日最新资讯28at.com

-领域知识:提示词是否涵盖一个或多个特定领域?N9H28资讯网——每日最新资讯28at.com

-复杂性:提示词是否有多层推理、组成部分或变量?N9H28资讯网——每日最新资讯28at.com

-解决问题:提示词是否直接让AI展示主动解决问题的能力?N9H28资讯网——每日最新资讯28at.com

-创造力:提示词是否涉及解决问题的一定程度的创造力?N9H28资讯网——每日最新资讯28at.com

-技术准确性:提示词是否要求响应具有技术准确性?N9H28资讯网——每日最新资讯28at.com

-实际应用:提示词是否与实际应用相关?N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

使用GPT-3.5-Turbo和GPT-4-Turbo对每个提示进行从 0 到 7 的注释,判断满足多少个条件。然后根据提示的平均得分给每个聚类评分。N9H28资讯网——每日最新资讯28at.com

高质量的问题通常与有挑战性的话题或任务相关,比如游戏开发或数学证明。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

新基准测试准吗?N9H28资讯网——每日最新资讯28at.com

Arena-Hard目前还有一个弱点:使用GPT-4做裁判更偏好自己的输出。官方也给出了相应提示。N9H28资讯网——每日最新资讯28at.com

可以看出,最新两个版本的GPT-4分数高过Claude 3 Opus一大截,但在人类投票分数中差距并没有那么明显。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

其实关于这一点,最近已经有研究论证,前沿模型都会偏好自己的输出。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

研究团队还发现,AI天生就可以判断出一段文字是不是自己写的,经过微调后自我识别的能力还能增强,并且自我识别能力与自我偏好线性相关。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

那么使用Claude 3来打分会使结果产生什么变化?LMSYS也做了相关实验。N9H28资讯网——每日最新资讯28at.com

首先,Claude系列的分数确实会提高。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

但令人惊讶的是,它更喜欢几种开放模型如Mixtral和零一万物Yi,甚至对GPT-3.5的评分都有明显提高。N9H28资讯网——每日最新资讯28at.com

总体而言,使用Claude 3打分的区分度和与人类结果的一致性都不如GPT-4。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

所以也有很多网友建议,使用多个大模型来综合打分。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

除此之外,团队还做了更多消融实验来验证新基准测试的有效性。N9H28资讯网——每日最新资讯28at.com

比如在提示词中加入“让答案尽可能详尽”,平均输出长度更高,分数确实会提高。N9H28资讯网——每日最新资讯28at.com

但把提示词换成“喜欢闲聊”,平均输出长度也有提高,但分数提升就不明显。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

此外在实验过程中还有很多有意思的发现。N9H28资讯网——每日最新资讯28at.com

比如GPT-4来打分非常严格,如果回答中有错误会狠狠扣分;而Claude 3即使识别出小错误也会宽大处理。N9H28资讯网——每日最新资讯28at.com

对于代码问题,Claude 3倾向于提供简单结构、不依赖外部代码库,能帮助人类学习编程的答案;而GPT-4-Turbo更倾向最实用的答案,不管其教育价值如何。N9H28资讯网——每日最新资讯28at.com

另外即使设置温度为0,GPT-4-Turbo也可能产生略有不同的判断。N9H28资讯网——每日最新资讯28at.com

从层次结构可视化的前64个聚类中也可以看出,大模型竞技场用户的提问质量和多样性确实是高。N9H28资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了N9H28资讯网——每日最新资讯28at.com

这里面也许就有你的贡献。N9H28资讯网——每日最新资讯28at.com

Arena-Hard GitHub:N9H28资讯网——每日最新资讯28at.com

https://github.com/lm-sys/arena-hardN9H28资讯网——每日最新资讯28at.com

Arena-Hard HuggingFace:N9H28资讯网——每日最新资讯28at.com

https://huggingface.co/spaces/lmsys/arena-hard-browserN9H28资讯网——每日最新资讯28at.com

大模型竞技场:N9H28资讯网——每日最新资讯28at.com

https://arena.lmsys.orgN9H28资讯网——每日最新资讯28at.com

参考链接:N9H28资讯网——每日最新资讯28at.com

[1]https://x.com/lmsysorg/status/1782179997622649330N9H28资讯网——每日最新资讯28at.com

[2]https://lmsys.org/blog/2024-04-19-arena-hard/N9H28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-25-84608-0.html新测试基准发布 最强开源Llama 3尴尬了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 提车三天特斯拉中国突然降价一万四 车主:太疼了!

下一篇: 小米平板6S Pro评测:小米平板的最终形态

标签:
  • 热门焦点
  • 6月安卓手机性价比榜:Note 12 Turbo断层式碾压

    6月份有一个618,虽然这是京东周年庆的日子,但别的电商也都不约而同的跟进了,反正促销没坏处,厂商和用户都能满意。618期间一些产品也出现了历史低价,那么各个价位段的产品性价比
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • 多线程开发带来的问题与解决方法

    使用多线程主要会带来以下几个问题:(一)线程安全问题  线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间,该数据被其他的线程所修改,那么对于当前线程而言,该线程
  • 微信语音大揭秘:为什么禁止转发?

    大家好,我是你们的小米。今天,我要和大家聊一个有趣的话题:为什么微信语音不可以转发?这是一个我们经常在日常使用中遇到的问题,也是一个让很多人好奇的问题。让我们一起来揭开这
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 猿辅导与新东方的两种“归途”

    作者|卓心月 出品|零态LT(ID:LingTai_LT)如何成为一家伟大企业?答案一定是对“势”的把握,这其中最关键的当属对企业战略的制定,且能够站在未来看现在,即使这其中的
  • 重估百度丨大模型,能撑起百度的“今天”吗?

    自象限原创 作者|程心 罗辑2023年之前,对于自己的“今天”,百度也很迷茫。“新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”这是2022年底,李彦宏
  • iQOO 11S评测:行业唯一的200W标准版旗舰

    【Techweb评测】去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,该机不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞
  • Windows 11发布,微软一改往常对老机型开放的态度

    距离 Windows 11 发布已经过去一周,在过去一周里,很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是,在这次大
Top