当前位置:首页 > 元宇宙 > AI

Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

来源: 责编: 时间:2024-09-13 09:33:00 197观看
导读 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果

9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。cZd28资讯网——每日最新资讯28at.com

cZd28资讯网——每日最新资讯28at.com

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。cZd28资讯网——每日最新资讯28at.com

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。cZd28资讯网——每日最新资讯28at.com

cZd28资讯网——每日最新资讯28at.com

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。cZd28资讯网——每日最新资讯28at.com

查询公开资料,有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet以及OpenAI。cZd28资讯网——每日最新资讯28at.com

cZd28资讯网——每日最新资讯28at.com

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。cZd28资讯网——每日最新资讯28at.com

舒默对这一即将发布的版本做出了大胆声明,称其不仅将成为最佳的开源模型,还将是有史以来最优秀的语言模型。cZd28资讯网——每日最新资讯28at.com

官方回应:cZd28资讯网——每日最新资讯28at.com

cZd28资讯网——每日最新资讯28at.com

cZd28资讯网——每日最新资讯28at.com

相关阅读:cZd28资讯网——每日最新资讯28at.com

《开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》cZd28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7147-0.htmlReflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称字节 AI 硬件团队首款自研产品为智能耳机,与豆包大模型联动

下一篇: AI 被连续否定 30 次:ChatGPT 越改越错,Claude 坚持自我,甚至已读不回

标签:
  • 热门焦点
  • 欧盟人工智能法案:四种AI系统风险类型的划分及监管措施

    作者:赵志东 蔡佳雯来源:区块链日报该法案采用风险分级的规制路径,将人工智能系统的风险划分成不可接受的风险、高风险、有限风险和轻微风险四种类型,并针对不同类型施加了不同
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 元宇宙专题二:GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+DEFI(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
  • 虚拟偶像行业的商用价值逐渐凸显,IP生态圈也逐渐成型

    六月的第一个周六,一场虚拟偶像七海Nana7mi的个人3D演唱会在万代南梦宫上海文化中心举行,相较于洛天依、百大UP主泠鸢yousa等,这位虚拟Up主在B站上的粉丝数43.6万

相关资讯

    SQL Error: select * from ***_ecms_news11 where id in(283,,50,133,210,196) limit 6
Top