当前位置:首页 > 科技  > 测评

新测试基准发布 最强开源Llama 3尴尬了

来源: 责编: 时间:2024-04-23 09:13:14 105观看
导读 如果试题太简单,学霸和学渣都能考90分,拉不开差距……随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。大模型竞技场背后组织LMSYS推出下

如果试题太简单,学霸和学渣都能考90分,拉不开差距……rL928资讯网——每日最新资讯28at.com

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。rL928资讯网——每日最新资讯28at.com

大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。rL928资讯网——每日最新资讯28at.com

Llama 3的两个指令微调版本实力到底如何,也有了最新参考。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

与之前大家分数都相近的MT Bench相比,Arena-Hard区分度从22.6%提升到87.4%,孰强孰弱一目了然。rL928资讯网——每日最新资讯28at.com

Arena-Hard利用竞技场实时人类数据构建,与人类偏好一致率也高达89.1%。rL928资讯网——每日最新资讯28at.com

除了上面两个指标都达到SOTA之外,还有一个额外的好处:rL928资讯网——每日最新资讯28at.com

实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词,减轻潜在的数据泄露。rL928资讯网——每日最新资讯28at.com

并且新模型发布后,无需再等待一周左右时间让人类用户参与投票,只需花费25美元快速运行测试管线,即可得到结果。rL928资讯网——每日最新资讯28at.com

有网友评价,使用真实用户提示词而不是高中考试来测试,真的很重要。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

新基准测试如何运作?rL928资讯网——每日最新资讯28at.com

简单来说,通过大模型竞技场20万个用户查询中,挑选500个高质量提示词作为测试集。rL928资讯网——每日最新资讯28at.com

首先,挑选过程中确保多样性,也就是测试集应涵盖广泛的现实世界话题。rL928资讯网——每日最新资讯28at.com

为了确保这一点,团队采用BERTopic中主题建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)转换每个提示,使用 UMAP 降低维度,并使用基于层次结构的模型聚类算法 (HDBSCAN) 来识别聚类,最后使用GPT-4-turbo进行汇总。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

同时确保入选的提示词具有高质量,有七个关键指标来衡量:rL928资讯网——每日最新资讯28at.com

-具体性:提示词是否要求特定的输出?rL928资讯网——每日最新资讯28at.com

-领域知识:提示词是否涵盖一个或多个特定领域?rL928资讯网——每日最新资讯28at.com

-复杂性:提示词是否有多层推理、组成部分或变量?rL928资讯网——每日最新资讯28at.com

-解决问题:提示词是否直接让AI展示主动解决问题的能力?rL928资讯网——每日最新资讯28at.com

-创造力:提示词是否涉及解决问题的一定程度的创造力?rL928资讯网——每日最新资讯28at.com

-技术准确性:提示词是否要求响应具有技术准确性?rL928资讯网——每日最新资讯28at.com

-实际应用:提示词是否与实际应用相关?rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

使用GPT-3.5-Turbo和GPT-4-Turbo对每个提示进行从 0 到 7 的注释,判断满足多少个条件。然后根据提示的平均得分给每个聚类评分。rL928资讯网——每日最新资讯28at.com

高质量的问题通常与有挑战性的话题或任务相关,比如游戏开发或数学证明。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

新基准测试准吗?rL928资讯网——每日最新资讯28at.com

Arena-Hard目前还有一个弱点:使用GPT-4做裁判更偏好自己的输出。官方也给出了相应提示。rL928资讯网——每日最新资讯28at.com

可以看出,最新两个版本的GPT-4分数高过Claude 3 Opus一大截,但在人类投票分数中差距并没有那么明显。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

其实关于这一点,最近已经有研究论证,前沿模型都会偏好自己的输出。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

研究团队还发现,AI天生就可以判断出一段文字是不是自己写的,经过微调后自我识别的能力还能增强,并且自我识别能力与自我偏好线性相关。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

那么使用Claude 3来打分会使结果产生什么变化?LMSYS也做了相关实验。rL928资讯网——每日最新资讯28at.com

首先,Claude系列的分数确实会提高。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

但令人惊讶的是,它更喜欢几种开放模型如Mixtral和零一万物Yi,甚至对GPT-3.5的评分都有明显提高。rL928资讯网——每日最新资讯28at.com

总体而言,使用Claude 3打分的区分度和与人类结果的一致性都不如GPT-4。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

所以也有很多网友建议,使用多个大模型来综合打分。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

除此之外,团队还做了更多消融实验来验证新基准测试的有效性。rL928资讯网——每日最新资讯28at.com

比如在提示词中加入“让答案尽可能详尽”,平均输出长度更高,分数确实会提高。rL928资讯网——每日最新资讯28at.com

但把提示词换成“喜欢闲聊”,平均输出长度也有提高,但分数提升就不明显。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

此外在实验过程中还有很多有意思的发现。rL928资讯网——每日最新资讯28at.com

比如GPT-4来打分非常严格,如果回答中有错误会狠狠扣分;而Claude 3即使识别出小错误也会宽大处理。rL928资讯网——每日最新资讯28at.com

对于代码问题,Claude 3倾向于提供简单结构、不依赖外部代码库,能帮助人类学习编程的答案;而GPT-4-Turbo更倾向最实用的答案,不管其教育价值如何。rL928资讯网——每日最新资讯28at.com

另外即使设置温度为0,GPT-4-Turbo也可能产生略有不同的判断。rL928资讯网——每日最新资讯28at.com

从层次结构可视化的前64个聚类中也可以看出,大模型竞技场用户的提问质量和多样性确实是高。rL928资讯网——每日最新资讯28at.com

新测试基准发布 最强开源Llama 3尴尬了rL928资讯网——每日最新资讯28at.com

这里面也许就有你的贡献。rL928资讯网——每日最新资讯28at.com

Arena-Hard GitHub:rL928资讯网——每日最新资讯28at.com

https://github.com/lm-sys/arena-hardrL928资讯网——每日最新资讯28at.com

Arena-Hard HuggingFace:rL928资讯网——每日最新资讯28at.com

https://huggingface.co/spaces/lmsys/arena-hard-browserrL928资讯网——每日最新资讯28at.com

大模型竞技场:rL928资讯网——每日最新资讯28at.com

https://arena.lmsys.orgrL928资讯网——每日最新资讯28at.com

参考链接:rL928资讯网——每日最新资讯28at.com

[1]https://x.com/lmsysorg/status/1782179997622649330rL928资讯网——每日最新资讯28at.com

[2]https://lmsys.org/blog/2024-04-19-arena-hard/rL928资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-25-84608-0.html新测试基准发布 最强开源Llama 3尴尬了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 提车三天特斯拉中国突然降价一万四 车主:太疼了!

下一篇: 小米平板6S Pro评测:小米平板的最终形态

标签:
  • 热门焦点
  • 6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    2023年上半年已经正式过去了,我们也迎来了安兔兔V10版本,在新的骁龙8Gen3和天玑9300发布之前,性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主,至于那颗3.36GHz的骁龙8Gen2领先
  • Automa-通过连接块来自动化你的浏览器

    Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 谷歌KDD'23工作:如何提升推荐系统Ranking模型训练稳定性

    谷歌KDD'23工作:如何提升推荐系统Ranking模型训练稳定性

    谷歌在KDD 2023发表了一篇工作,探索了推荐系统ranking模型的训练稳定性问题,分析了造成训练稳定性存在问题的潜在原因,以及现有的一些提升模型稳定性方法的不足,并提出了一种新
  • 在线图片编辑器,支持PSD解析、AI抠图等

    在线图片编辑器,支持PSD解析、AI抠图等

    自从我上次分享一个人开发仿造稿定设计的图片编辑器到现在,不知不觉已过去一年时间了,期间我经历了裁员失业、面试找工作碰壁,寒冬下一直没有很好地履行计划.....这些就放在日
  • 一文搞定Java NIO,以及各种奇葩流

    一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • Temu起诉SHEIN,跨境电商战事升级

    Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
  • 荣耀Magic4 至臻版 首创智慧隐私通话 强劲影音系统

    荣耀Magic4 至臻版 首创智慧隐私通话 强劲影音系统

    2022年第一季度临近尾声,在该季度内,许多品牌陆续发布自己的最新产品,让大家从全新的角度来了解当今的手机技术。手机是电子设备中,更新迭代十分迅速的一款产品,基
  • 北京:科技教育体验基地开始登记

    北京:科技教育体验基地开始登记

      北京“科技馆之城”科技教育体验基地登记和认证工作日前启动。首批北京科技教育体验基地拟于2023年全国科普日期间挂牌,后续还将开展常态化登记。  北京科技教育体验基
Top