当前位置:首页 > 元宇宙 > AI

英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1

来源: 责编: 时间:2024-10-21 11:45:51 195观看
导读 刚刚,英伟达开源了超强模型 Nemotron-70B,后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet,仅次于 OpenAI o1!AI 社区惊呼:新的开源王者又来了?业内直呼:用 Llama 3.1 训出小模型吊打 GPT-4o,简直是神来之笔!一觉醒

刚刚,英伟达开源了超强模型 Nemotron-70B,后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet,仅次于 OpenAI o1!AI 社区惊呼:新的开源王者又来了?业内直呼:用 Llama 3.1 训出小模型吊打 GPT-4o,简直是神来之笔!RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

一觉醒来,新模型 Nemotron-70B 成为仅次 o1 的最强王者!RIf28资讯网——每日最新资讯28at.com

是的,就在昨晚,英伟达悄无声息地开源了这个超强大模型。一经发布,它立刻在 AI 社区引发巨大轰动。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

在多个基准测试中,它一举超越多个最先进的 AI 模型,包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 Sonnet 等 140 多个开闭源模型。并且仅次于 OpenAI 最新模型 o1。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

在即便是在没有专门提示、额外推理 token 的情况下,Nemotron-70B 也能答对「草莓有几个 r」经典难题。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

业内人士评价:英伟达在 Llama 3.1 的基础上训练出不太大的模型,超越了 GPT-4o 和 Claude 3.5 Sonnet,简直是神来之笔。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

网友们纷纷评论:这是一个历史性的开放权重模型。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

目前,模型权重已可在 Hugging Face 上获取。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

地址:https://huggingface.co/ nvidia / Llama-3.1-Nemotron-70B-Instruct-HF

有人已经用两台 Macbook 跑起来了。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

超越 GPT-4o,英伟达新模型爆火

Nemotron 基础模型,是基于 Llama-3.1-70B 开发而成。Nemotron-70B 通过人类反馈强化学习完成的训练,尤其是「强化算法」。RIf28资讯网——每日最新资讯28at.com

这次训练过程中,使用了一种新的混合训练方法,训练奖励模型时用了 Bradley-Terry 和 Regression。使用混合训练方法的关键,就是 Nemotron 的训练数据集,而英伟达也一并开源了。RIf28资讯网——每日最新资讯28at.com

它基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号,并利用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

在英伟达团队一篇预印本论文中,专门介绍了 HelpSteer2-Preference 算法。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ pdf/2410.01257

在 LMSYS 大模型竞技场中,Arena Hard 评测中,Nemotron-70B 得分 85。RIf28资讯网——每日最新资讯28at.com

在 AlpacaEval 2 LC 上得分 57.6,在 GPT-4-Turbo MT-Bench 上为 8.98。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

能够击败 GPT-4o 的模型,究竟有多强?RIf28资讯网——每日最新资讯28at.com

各路网友纷纷出题,来考验 Nemotron-70B 真实水平。RIf28资讯网——每日最新资讯28at.com

测试开始!

「一步一步认真思考:我目前有两根香蕉,我昨天吃掉一根,现在还有几根」?RIf28资讯网——每日最新资讯28at.com

Nemotron-70B 会将问题所给信息进行分解,然后一步一步推理得出,最终的正确答案是 2 根。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

评论区网友表示,来一道上难度的题「列出活到 89 岁的十位名人」。RIf28资讯网——每日最新资讯28at.com

不过,模型却把某人的去世日期弄错了,然而它不是一个推理题。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

还有开发者要求它,将整个 entropix 的 jax 模型实现转换成 Pytorch 格式,而且在零样本的情况下,70B 模型就完成了。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

那么,Nemotron-70B 在 hard prompt 上的表现,是否值得推敲?RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

在如下测试中,显然并没有通过,但确实给出了一个非常有趣的初步输出。RIf28资讯网——每日最新资讯28at.com

「考虑一个假设情况,如果月球只有 25 英里远,而一个人有太空服来保护自己免受太空环境的严酷影响,人类步行到月球是否合理?只回答最突出的要点。」RIf28资讯网——每日最新资讯28at.com

Nemotron-70B 给出的回答是:RIf28资讯网——每日最新资讯28at.com

不可能,因为需要克服巨大的重力逃逸速度:即使月球只有 25 英里远,人类仍然需要克服大约 2.4 公里 / 秒(5,376 英里 / 小时)的初始逃逸速度,才能从地球表面到达月球表面。步行速度最快也只有约 5-6 英里 / 小时(8-9.7 公里 / 小时),远远不足以达到这个速度,使得步行到月球完全不切实际。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

再来一道推理题,让 Nemotron-70B 与 GPT-4o 一起 PK「薛定谔的猫」实验变体:RIf28资讯网——每日最新资讯28at.com

一只死猫被放入一个盒子中,盒子里还有一个核同位素、一瓶毒药和一个辐射探测器。如果辐射探测器检测到辐射,它就会释放毒药。一天后打开盒子。猫活着的概率是多少?RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

Nemotron-70B 考虑很有特点的是,从一开始就考虑到猫就是死的,即便放在盒子一天后,仍旧是死的。RIf28资讯网——每日最新资讯28at.com

而 GPT-4o 并没有关注初始条件的重要性,而是就盒子里的客观条件,进行分析得出 50% 的概率。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

有网友表示,非常期待看到 Nemotron 70B 在自己的 Ryzen 5 / Radeon 5600 Linux 电脑上跑起来是什么样子。RIf28资讯网——每日最新资讯28at.com

在 40GB + 以上的情况下,它简直就是一头怪兽。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

芯片巨头不断开源超强模型

英伟达为何如此热衷于不断开源超强模型?RIf28资讯网——每日最新资讯28at.com

业内人表示,之所以这么做,就开源模型变得如此优秀,就是为了让所有盈利公司都必须订购更多芯片,来训练越来越复杂的模型。无论如何,人们都需要购买硬件,来运行免费模型。RIf28资讯网——每日最新资讯28at.com

总之,只要英伟达在定制芯片上保持领先,在神经形态芯片未来上投入足够资金,他们会永远立于不败之地。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

无代码初创公司创始人 Andres Kull 心酸地表示,英伟达可以不断开源超强模型。因为他们既有大量资金资助研究者,同时还在不断发展壮大开发生态。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

而 Meta 可以依托自己的社交媒体,获得利润上的资助。RIf28资讯网——每日最新资讯28at.com

然而大模型初创企业的处境就非常困难了,巨头们通过种种手段,在商业落地和名气上都取得了碾压,但小企业如果无法创造利润,将很快失去风头家的资助,迅速倒闭。RIf28资讯网——每日最新资讯28at.com

而更加可怕的是,英伟达可以以低 1000 倍的成本实现这一点。RIf28资讯网——每日最新资讯28at.com

如果英伟达真的选择这么做,将无人能与之匹敌。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

现在,英伟达占美国 GDP 的 11.7%。而在互联网泡沫顶峰时期,思科仅占美国 GDP 的 5.5%最强开源模型是怎样训练出来的

在训练模型的过程中,奖励模型发挥了很重要的作用,因为它对于调整模型的遵循指令能力至关重要。RIf28资讯网——每日最新资讯28at.com

主流的奖励模型方法主要有两种:Bradley-Terry 和 Regression。RIf28资讯网——每日最新资讯28at.com

前者起源于统计学中的排名理论,通过最大化被选择和被拒绝响应之间的奖励差距,为模型提供了一种直接的基于偏好的反馈。RIf28资讯网——每日最新资讯28at.com

后者则借鉴了心理学中的评分量表,通过预测特定提示下响应的分数来训练模型。这就允许模型对响应的质量进行更细节的评估。RIf28资讯网——每日最新资讯28at.com

对研究者和从业人员来说,决定采用哪种奖励模型是很重要的。RIf28资讯网——每日最新资讯28at.com

然而,缺乏证据表明,当数据充分匹配时,哪种方法优于另一种。这也就意味着,现有公共数据集中无法提供充分匹配的数据。RIf28资讯网——每日最新资讯28at.com

英伟达研究者发现,迄今为止没有人公开发布过与这两种方法充分匹配的数据。RIf28资讯网——每日最新资讯28at.com

为此,他们集中了两种模型的优点,发布了名为 HelpSteer2-Preference 的高质量数据集。RIf28资讯网——每日最新资讯28at.com

这样,Bradley-Terry 模型可以使用此类偏好注释进行有效训练,还可以让注释者表明为什么更喜欢一种响应而非另一种,从而研究和利用偏好理由。RIf28资讯网——每日最新资讯28at.com

他们发现,这个数据集效果极好,训练出的模型性能极强,训出了 RewardBench 上的一些顶级模型(如 Nemotron-340B-Reward)。RIf28资讯网——每日最新资讯28at.com

主要贡献可以总结为以下三点 ——RIf28资讯网——每日最新资讯28at.com

1. 开源了一个高质量的偏好建模数据集,这应该是包含人类编写偏好理由的通用领域偏好数据集的第一个开源版本。RIf28资讯网——每日最新资讯28at.com

2. 利用这些数据,对 Bradley-Terry 风格和 Regression 风格的奖励模型,以及可以利用偏好理由的模型进行了比较。RIf28资讯网——每日最新资讯28at.com

3. 得出了结合 Bradley-Terry 和回归奖励模型的新颖方法,训练出的奖励模型在 RewardBench 上得分为 94.1 分,这是截止 2024.10.1 表现最好的模型。RIf28资讯网——每日最新资讯28at.com

HelpSteer2-Preference 数据集

数据收集过程中,注释者都会获得一个提示和两个响应。RIf28资讯网——每日最新资讯28at.com

他们首先在 Likert-5 量表上,从(有用性、正确性、连贯性、复杂性和冗长性)几个维度上,对每个响应进行注释。RIf28资讯网——每日最新资讯28at.com

然后在 7 个偏好选项中进行选择,每个选项都与一个偏好分数及偏好理由相关联。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

Scale AI 会将每个任务分配给 3-5 个注释者,以独立标记每个提示的两个响应之间的偏好。RIf28资讯网——每日最新资讯28at.com

严格的数据预处理,也保证了数据的质量。RIf28资讯网——每日最新资讯28at.com

根据 HelpSteer2,研究者会确定每个任务的三个最相似的偏好注释,取其平均值,并将其四舍五入到最接近的整数,以给出整体偏好。RIf28资讯网——每日最新资讯28at.com

此外,研究者过滤掉了 10% 的任务,其中三个最相似的注释分布超过 2。RIf28资讯网——每日最新资讯28at.com

这样就避免了对人类注释者无法自信评估真实偏好的任务进行训练。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

HelpSteer2Preference 中不同回应之间的偏好分布与 HelpSteer 2 中它们的帮助评分差异之间的关系

研究者发现,当使用每种奖励模型的最佳形式时,Bradley-Terry 类型和回归类型的奖励模型彼此竞争。RIf28资讯网——每日最新资讯28at.com

此外,它们可以相辅相成,训练一个以仅限帮助性 SteerLM 回归模型为基础进行初始化的缩放 Bradley-Terry 模型,在 RewardBench 上整体得分达到 94.1。RIf28资讯网——每日最新资讯28at.com

截至 2024 年 10 月 1 日,这在 RewardBench 排行榜上排名第一。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

RewardBench 上的模型表现

最后,这种奖励模型被证明在使用 Online RLHF(特别是 REINFORCE 算法)对齐模型以使其遵循指令方面,非常有用。RIf28资讯网——每日最新资讯28at.com

如表 4 所示,大多数算法对于 Llama-3.1-70B-Instruct 都有所改进。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

对齐模型的性能:所有模型均由 Llama-3.1-70B-Instruct 作为基础模型进行训练

如表 5 所示,对于「Strawberry 中有几个 r」这个问题,只有 REINFORCE 能正确回答这个问题。RIf28资讯网——每日最新资讯28at.com

RIf28资讯网——每日最新资讯28at.com

参考资料:RIf28资讯网——每日最新资讯28at.com

https://arxiv.org/pdf/2410.01257RIf28资讯网——每日最新资讯28at.com

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HFRIf28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9183-0.html英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 千觉机器人获数千万元天使轮融资,高瓴创投领投!

下一篇: 人形机器人公司星动纪元完成近 3 亿元 Pre-A 轮融资:阿里巴巴联合领投,联想追投

标签:
  • 热门焦点
  • 上、中、下游加深融合,搭建元宇宙产业全景

    元宇宙产业链涉及多种技术和多个领域。在上游,聚集着大量的技术厂商,提供元宇宙相关的硬件和软件支持;在中游,内容运营与分发领域也吸引着越来越多的企业以VR内容
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 中国银保监管委提示:谨慎投资,勿做接盘侠

    中国银保监管委,发布一则风险提示,内容围绕防范以“元宇宙”名义进行的非法集资风险。原文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 爆发在即的Layer2赛道百花齐放,谁将是领跑者?

    还记得几年前最早我们提起ETH扩容,首先想到就是Layer2,而Layer2里,首先想到的是闪电网络,状态通道,Plasma…然后折腾了几年,发现并没有什么用,许多项目方和资本也等不
Top