当前位置:首页 > 元宇宙 > AI

LMArena公正性遭质疑:大型AI供应商是否享有不公优势?

来源: 责编: 时间:2025-05-03 07:33:59 250观看
导读人工智能领域近期掀起了一场关于公共基准测试平台公正性的热议。LMArena,这一备受瞩目的平台,近期被指存在对大型供应商如OpenAI、谷歌及meta的潜在偏袒,引发了行业内的广泛关注和争议。LMArena平台通过展示不同大型语言

人工智能领域近期掀起了一场关于公共基准测试平台公正性的热议。LMArena,这一备受瞩目的平台,近期被指存在对大型供应商如OpenAI、谷歌及meta的潜在偏袒,引发了行业内的广泛关注和争议。uU328资讯网——每日最新资讯28at.com

LMArena平台通过展示不同大型语言模型(LLM)的回复对比,并由用户投票选出更优者,形成了一个在行业内被广泛引用的模型性能排行榜。这一机制原本旨在提供一个公平、透明的评估环境,然而,最新的研究却揭示了其排名系统可能存在的问题。uU328资讯网——每日最新资讯28at.com

由Cohere Labs、普林斯顿大学和麻省理工学院的研究人员联合进行的一项深入分析显示,LMArena的排名可能受到了大型企业优势的影响。这些企业被指能够私下测试多个模型版本,并仅选择性能最佳的版本进行展示,而其余的则被悄然移除。这种做法被称为“分数游戏”,它使得排行榜上的模型更像是经过精心挑选的“优等生”。例如,meta在发布Llama4之前,据称至少测试了27个内部版本,并在用户批评后,部署了专门针对基准测试优化的版本。uU328资讯网——每日最新资讯28at.com

研究还发现,大型供应商在获取用户数据方面拥有显著优势。通过API接口,它们能够收集到大量的用户与模型交互的数据,包括提示和偏好设置。然而,这些数据并未被公平地共享,OpenAI和谷歌的模型占据了绝大多数的用户交互数据(占比高达61.4%)。这使得它们能够利用更多的数据进行优化,甚至可能针对LMArena平台进行专门优化,从而提升排名。uU328资讯网——每日最新资讯28at.com

更令人担忧的是,大量模型在未公开通知的情况下被从LMArena平台移除,这对开源模型的影响尤为严重。在评估的243个模型中,有205个模型未经解释就被停用,仅有47个模型被正式标记为弃用。这种缺乏透明度的模型移除机制,进一步加剧了排名的失真。uU328资讯网——每日最新资讯28at.com

面对这些指控,LMArena团队迅速做出回应,坚决否认存在偏袒行为。他们强调,其排名系统反映了数百万真实的人类偏好,并认为提交前的测试是合法且必要的手段,旨在确定最符合用户期望的模型变体。LMArena团队还表示,他们仅依据最终公开发布的模型进行排名,且平台的源代码和数百万用户交互数据均已公开,以体现其开放的设计理念。uU328资讯网——每日最新资讯28at.com

然而,尽管LMArena团队做出了回应,但研究人员仍坚持认为平台需要进行改革。他们呼吁LMArena公开所有测试过的模型变体、限制供应商单次提交的版本数量、确保模型在用户之间更公平地分配,并对模型移除进行清晰记录。他们警告说,如果缺乏更严格的监督,LMArena最终可能会奖励那些针对排行榜进行策略性优化的模型,而非真正性能卓越的模型。uU328资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
小米五月服务周特惠:手机电池换新低至79.2元,家电清洁也有惊喜价!
小米五月服务周特惠:手机电池换新低至79.2元,家电清洁也有惊喜价!
特斯拉辟谣寻新CEO,力挺马斯克继续领航
特斯拉辟谣寻新CEO,力挺马斯克继续领航
StikDebug应用上线,iPhone和iPad用户能畅玩GameCube和Wii游戏了?
StikDebug应用上线,iPhone和iPad用户能畅玩GameCube和Wii游戏了?
苹果AirPods新功能!专利获批可监测呼吸速率,健康管理再升级
苹果AirPods新功能!专利获批可监测呼吸速率,健康管理再升级
华为五月服务日福利多:免费贴膜保养,配件优惠享不停!
华为五月服务日福利多:免费贴膜保养,配件优惠享不停!
奥迪quattro四十五载传奇:赛道上的技术图腾与激情之旅
奥迪quattro四十五载传奇:赛道上的技术图腾与激情之旅
热门内容
  • ChatGPT喊你名字了?用户反应不一,个性化尝试遭遇“恐怖谷”
  • 蚂蚁集团慷慨分红,单季净利达136亿,阿里持股33%共享成果
  • 华为4月新品大爆发:智能眼镜钛空版、门锁2系列及星闪路由X1来袭
  • 比尔·盖茨展望:AI将深度改造行业,人类生来不为工作?
  • TIOBE 4月编程语言榜:Python稳居榜首,Kotlin、Ruby、Swift地位受挑战
  • OPPO小布助手网页版来袭,满血版DeepSeek加持体验升级!
  • 中国首部规范AI气象服务规章6月施行,气象领域将迎来新变革!
  • 华为三进制芯片专利公布:信息密度与计算效率能否迎来革命?
  • 苹果新款Apple TV 4K即将发布,四大升级能否重塑智能客厅体验?
  • 夸克AI超级框引领潮流,月活近1.5亿成中国AI应用新霸主
  • 百度联盟25亿激励,智跃计划赋能开发者,共筑AI新生态
  • 谷歌Firebase Studio上线:AI云端IDE,轻松秒建多样应用
  • 小米16曝光:或将新增多功能按键,轻薄机身年底亮相?
  • 华为HDC2025开发者大会6月来袭,早鸟票明日开抢,你准备好了吗?
  • 360纳米AI新推MCP万能箱,打造个性化智能体提升效率
本栏最新
微博辟谣董某某不实传闻,多账号被禁言处理
微博辟谣董某某不实传闻,多账号被禁言处理
中科院自动化所发布ScienceOne:一键生成文献综述,赋能智能科研
中科院自动化所发布ScienceOne:一键生成文献综述,赋能智能科研
手机性能是否真过剩?深度剖析消费者需求与手机性能发展
手机性能是否真过剩?深度剖析消费者需求与手机性能发展
微软Phi-4推理模型发布,小型AI能否撼动大型模型地位?
微软Phi-4推理模型发布,小型AI能否撼动大型模型地位?
英伟达黄仁勋:中美AI竞争激烈,华为实力强大不可忽视
英伟达黄仁勋:中美AI竞争激烈,华为实力强大不可忽视
徐州“黑科技”大揭秘,这些“大国重器”竟出自这座城!
徐州“黑科技”大揭秘,这些“大国重器”竟出自这座城!

本文链接:http://www.28at.com/showinfo-45-12726-0.htmlLMArena公正性遭质疑:大型AI供应商是否享有不公优势?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Meta智能眼镜隐私新政:默认录音引争议,用户控制权何在?

下一篇: 扎克伯格详解Llama 4与DeepSeek:AI未来多模态交互将更自然

标签:
  • 热门焦点
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • “啫喱”超越微信登顶:首款“元宇宙社交App”会昙花一现吗?

    作者| 赤木瓶子如何终结“昙花一现”的命运,是潮流社交产品的长期命题,如今,在元宇宙浪潮的洗礼下,这一命题正在迎来新的可能性。近段时间,一款名为“啫喱”的社交A
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准

最新推荐

猜你喜欢

热门推荐

相关资讯

Top