当前位置:首页 > 元宇宙 > AI

Meta Llama 4 发布 36 小时“差评如潮”,匿名员工爆料拒绝署名技术报告

来源: 责编: 时间:2025-04-09 12:34:55 167观看
导读 Meta 最新基础模型 Llama 4 发布 36 小时后,评论区居然是这个画风:失望,非常失望不知道他们后训练怎么搞的,总之不太行在 [各种测试] 中失败……还被做成表情包调侃,总结起来就是一个“差评如潮”。具体来看,大家的

Meta 最新基础模型 Llama 4 发布 36 小时后,评论区居然是这个画风:ycB28资讯网——每日最新资讯28at.com

失望,非常失望ycB28资讯网——每日最新资讯28at.com

不知道他们后训练怎么搞的,总之不太行ycB28资讯网——每日最新资讯28at.com

在 [各种测试] 中失败ycB28资讯网——每日最新资讯28at.com

……ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

还被做成表情包调侃,总结起来就是一个“差评如潮”。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

具体来看,大家的抱怨主要集中在代码能力。ycB28资讯网——每日最新资讯28at.com

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

反映在榜单上,成绩也相当割裂。ycB28资讯网——每日最新资讯28at.com

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

就在 Llama 4 即将发布前几天,Meta AI 研究主管 Joelle Pineau 在工作 8 年之后突然宣布离职,总之就是不太妙。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

Llama 4 怎么了?

大模型关注者们火热实测吐槽之际,一则有关 Llama 4 的匿名爆料,突然引起轩然大波:ycB28资讯网——每日最新资讯28at.com

有网友称自己已向 Meta GenAI 部门提交辞职,并要求不要署名在 Llama 4 的技术报告上。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

此爆料尚未得到证实,但有人搬出 Meta GenAI 负责人 Ahmad Al-Dahle 的帖子,至少能看出在 Llama 4 大模型竞技场里运行的是特殊版本模型。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

还有 Meta 前员工借此话题贴出 2024 年 11 月的一项研究,指出从 Llama 1 开始数据泄露的问题就存在了。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

也不只是编程能力一个方面有问题,在 EQBench 测评基准的的长文章写作榜中,Llama 4 系列也直接垫底。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

榜单维护者_sqrkl 说明了具体情况。ycB28资讯网——每日最新资讯28at.com

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写 1000 字,重复 8 轮以上。ycB28资讯网——每日最新资讯28at.com

由 Claude-Sonnet 3.7 来当裁判,先对每个章节单独打分,再对整个作品打分。ycB28资讯网——每日最新资讯28at.com

Llama 4 的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

对此结果,有一个猜想是之前的版权诉讼让 Meta 删除了网络和书籍数据,使用了更多的合成数据。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

在这场诉讼中,许多作家发现自己的作品可能被用于 AI 训练,还到伦敦的 Meta 办公室附近发起抗议。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

Llama 4 发布后的种种,让人联想到年初的匿名员工爆料,有网友表示当初只是随便看看,现在却开始相信了:ycB28资讯网——每日最新资讯28at.com

在这条爆料中,Deepseek V3 出来之后,训练中的 Llama4 就显得落后了,中层管理的薪水都比 DeepSeek V3 的训练成本都高,Meta 内部陷入恐慌模式。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

让人不由得感叹,DeepSeek-R1 横空出世仅仅两个月时间,却像过了几辈子。ycB28资讯网——每日最新资讯28at.com

ycB28资讯网——每日最新资讯28at.com

参考链接:ycB28资讯网——每日最新资讯28at.com

[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/ycB28资讯网——每日最新资讯28at.com

[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.htmlycB28资讯网——每日最新资讯28at.com

[3]https://x.com/suchenzang/status/1909070231517143509ycB28资讯网——每日最新资讯28at.com

https://x.com/TheAhmadOsman/status/1908833792111906894ycB28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《Llama 4 发布 36 小时差评如潮!匿名员工爆料拒绝署名技术报告》ycB28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12086-0.htmlMeta Llama 4 发布 36 小时“差评如潮”,匿名员工爆料拒绝署名技术报告

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 2025 商汤技术交流日 4 月 10 日举行,日日新 6.0“强推理”模型首秀

下一篇: 我国电力领域迎新里程碑:特高压直流量子电流传感器成功投运

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 国内涌现70余家数字藏品平台:合规、流量与利润在博弈

    作者:杨郑君2月16日,迅雷链企业数字藏品服务平台正式上线,继阿里、腾讯、京东、百度、网易等之后,又一家互联网企业正式加入到火热的数字藏品平台的竞争中。除互联
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+Defi(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
Top