当前位置：首页 > 元宇宙 > AI

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

来源：责编：时间：2025-04-16 07:18:56 206观看

导读 4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑

4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

4 月 6 日，Meta 发布了最新的大模型 Llama 4，包含 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二，仅次于 Gemini 2.5 Pro。然而，随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光，Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同，因而质疑 Meta 刷榜作弊。

4 月 8 日，Chatbot Arena 官方发文确认了用户的上述质疑，公开表示 Meta 提供给他们的是“特供版”，并考虑更新排行榜。根据 Chatbot Arena 官方消息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本，当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活参数、128 个 MoE 专家的指令微调模型。

注意到，目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名，远低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳？该公司在上周六发布的一张图表中解释称，该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果，因为 LM Arena 的人类评分者会比较不同模型的输出，并选择他们更偏好的结果。

由于各种原因，LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此，针对基准测试调整模型不仅具有误导性，还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示，Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本，它在 LM Arena 上也表现不错，”该发言人说，“我们现在已发布了开源版本，将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容，并期待他们持续的反馈。”

本文链接：http://www.28at.com/showinfo-45-12275-0.htmlMeta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：单图直出 CAD 工程文件，新研究解决 AI 生成 3D 模型“不可编辑”痛点

下一篇： OpenAI CEO 奥尔特曼：DeepSeek 并未影响 GPT 的增长，将推更好的开源模型

标签：

热门焦点

错过了BRC20还有eths,eth铭文协议

来源：三头鸟NFT大家好，我是鸟哥，了解鸟哥的人都知道鸟哥擅撸空投，说实话撸毛虽然回报大但周期还是有点长的，所以除了撸毛我们自己也在研究早期项目，打新，比如BRC20协议ordi当时就有
VR/AR迷失元宇宙“硝烟”

不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵，又随着元宇宙回归平静。1月份，微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员，其中负责混合现实硬件（MR）的Holo
元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
字节跳动，刚刚投了一位虚拟女生

今年第一笔虚拟人融资出炉了。投资界获悉，杭州李未可科技有限公司显示发生股东变更，新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认，本轮
完美世界被元宇宙“拒之门外”

春节期间，游戏是消磨时间最好的方式，完美世界的《幻塔》作为选择的首要目标，倒不是因为它的吸引力有多大，纯粹是广大网友的吐槽。继《原神》之后，进击元宇宙的游戏
“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

今日《元宇宙新鲜事》有：“元宇宙第一股”Roblox首份年报未达预期致盘后股价暴跌15.28%；YouTube宣布进军区块链和元宇宙；摩根大通成为首家进入元宇宙的银行。【中
从冰墩墩到无聊猿，解秘未来IP爆款的模因

打造IP，是建设元宇宙的刚需。NFT能直接让IP的价值变现；虚拟人IP是元宇宙的第一入口，而元宇宙要搭建的，就是一个个品牌IP星球，考验的是IP世界观的建设能力。如果说在
吸金31亿美元，谁在催火2021年的链游？

2021年究竟发生了什么，才使得链游领域在这年一飞冲天？作者：廖羽2022年2月16日，Invest Game发布《2021年全球游戏投资报告》，报告显示，游戏行业的投资重点正在向区块
融资千万美元的元宇宙平台UGC到底是什么？

据获悉，全球化元宇宙社交平台BUD Technologies, Inc.（以下简称“BUD”）宣布完成1500万美元A+轮融资，本轮融资由启明创投领投，老股东源码资本、GGV纪源资本、云九资

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

错过了BRC20还有eths,eth铭文协议

VR/AR迷失元宇宙“硝烟”

元宇宙是投资中国的第五次重大机遇

字节跳动，刚刚投了一位虚拟女生

完美世界被元宇宙“拒之门外”

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

从冰墩墩到无聊猿，解秘未来IP爆款的模因

吸金31亿美元，谁在催火2021年的链游？

融资千万美元的元宇宙平台UGC到底是什么？

最新推荐

内容行业大变天，爆款全靠AI？

2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

星展银行(DBS)计划推出零售数字资产交易服务

中国区块链产业生态地图报告（2021）

2022年的Web3：定义概念并开创新范式

在互联网考古后，我被豆瓣上这座元宇宙古城征服了

猜你喜欢

热门推荐

相关资讯