当前位置:首页 > 元宇宙 > AI

Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

来源: 责编: 时间:2024-09-13 09:33:00 166观看
导读 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果

9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。rqs28资讯网——每日最新资讯28at.com

rqs28资讯网——每日最新资讯28at.com

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。rqs28资讯网——每日最新资讯28at.com

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。rqs28资讯网——每日最新资讯28at.com

rqs28资讯网——每日最新资讯28at.com

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。rqs28资讯网——每日最新资讯28at.com

查询公开资料,有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet以及OpenAI。rqs28资讯网——每日最新资讯28at.com

rqs28资讯网——每日最新资讯28at.com

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。rqs28资讯网——每日最新资讯28at.com

舒默对这一即将发布的版本做出了大胆声明,称其不仅将成为最佳的开源模型,还将是有史以来最优秀的语言模型。rqs28资讯网——每日最新资讯28at.com

官方回应:rqs28资讯网——每日最新资讯28at.com

rqs28资讯网——每日最新资讯28at.com

rqs28资讯网——每日最新资讯28at.com

相关阅读:rqs28资讯网——每日最新资讯28at.com

《开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》rqs28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7147-0.htmlReflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称字节 AI 硬件团队首款自研产品为智能耳机,与豆包大模型联动

下一篇: AI 被连续否定 30 次:ChatGPT 越改越错,Claude 坚持自我,甚至已读不回

标签:
  • 热门焦点
  • AI网红能年赚百万,普通人的新机会来了?

    来源|运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁2023 年 ,数字人成为了当红的“流量话题”和“商业机会"。不管是 AI 孙燕姿走红网络,还是 AI 数字
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 过去女性在互联网领域是半边天,在Web3,将会是整片天!

    Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中,如果女性在创造性方面发挥更大的作用,可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
  • NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

    当Stefan Prodanovic在13岁时开始尝试平面设计,与一位从事编程工作的学校朋友共同创作数字游戏时,他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top