当前位置：首页 > 元宇宙 > AI

英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，仅次于 OpenAI o1

来源：责编：时间：2024-10-21 11:45:51 205观看

导读刚刚，英伟达开源了超强模型 Nemotron-70B，后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet，仅次于 OpenAI o1！AI 社区惊呼：新的开源王者又来了？业内直呼：用 Llama 3.1 训出小模型吊打 GPT-4o，简直是神来之笔！一觉醒

刚刚，英伟达开源了超强模型 Nemotron-70B，后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet，仅次于 OpenAI o1！AI 社区惊呼：新的开源王者又来了？业内直呼：用 Llama 3.1 训出小模型吊打 GPT-4o，简直是神来之笔！

一觉醒来，新模型 Nemotron-70B 成为仅次 o1 的最强王者！

是的，就在昨晚，英伟达悄无声息地开源了这个超强大模型。一经发布，它立刻在 AI 社区引发巨大轰动。

在多个基准测试中，它一举超越多个最先进的 AI 模型，包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 Sonnet 等 140 多个开闭源模型。并且仅次于 OpenAI 最新模型 o1。

在即便是在没有专门提示、额外推理 token 的情况下，Nemotron-70B 也能答对「草莓有几个 r」经典难题。

业内人士评价：英伟达在 Llama 3.1 的基础上训练出不太大的模型，超越了 GPT-4o 和 Claude 3.5 Sonnet，简直是神来之笔。

网友们纷纷评论：这是一个历史性的开放权重模型。

目前，模型权重已可在 Hugging Face 上获取。

地址：https://huggingface.co/ nvidia / Llama-3.1-Nemotron-70B-Instruct-HF

有人已经用两台 Macbook 跑起来了。

超越 GPT-4o，英伟达新模型爆火

Nemotron 基础模型，是基于 Llama-3.1-70B 开发而成。Nemotron-70B 通过人类反馈强化学习完成的训练，尤其是「强化算法」。

这次训练过程中，使用了一种新的混合训练方法，训练奖励模型时用了 Bradley-Terry 和 Regression。使用混合训练方法的关键，就是 Nemotron 的训练数据集，而英伟达也一并开源了。

它基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号，并利用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。

在英伟达团队一篇预印本论文中，专门介绍了 HelpSteer2-Preference 算法。

论文地址：https://arxiv.org/ pdf/2410.01257

在 LMSYS 大模型竞技场中，Arena Hard 评测中，Nemotron-70B 得分 85。

在 AlpacaEval 2 LC 上得分 57.6，在 GPT-4-Turbo MT-Bench 上为 8.98。

能够击败 GPT-4o 的模型，究竟有多强？

各路网友纷纷出题，来考验 Nemotron-70B 真实水平。

测试开始！

「一步一步认真思考：我目前有两根香蕉，我昨天吃掉一根，现在还有几根」？

Nemotron-70B 会将问题所给信息进行分解，然后一步一步推理得出，最终的正确答案是 2 根。

评论区网友表示，来一道上难度的题「列出活到 89 岁的十位名人」。

不过，模型却把某人的去世日期弄错了，然而它不是一个推理题。

还有开发者要求它，将整个 entropix 的 jax 模型实现转换成 Pytorch 格式，而且在零样本的情况下，70B 模型就完成了。

那么，Nemotron-70B 在 hard prompt 上的表现，是否值得推敲？

在如下测试中，显然并没有通过，但确实给出了一个非常有趣的初步输出。

「考虑一个假设情况，如果月球只有 25 英里远，而一个人有太空服来保护自己免受太空环境的严酷影响，人类步行到月球是否合理？只回答最突出的要点。」

Nemotron-70B 给出的回答是：

不可能，因为需要克服巨大的重力逃逸速度：即使月球只有 25 英里远，人类仍然需要克服大约 2.4 公里 / 秒（5,376 英里 / 小时）的初始逃逸速度，才能从地球表面到达月球表面。步行速度最快也只有约 5-6 英里 / 小时（8-9.7 公里 / 小时），远远不足以达到这个速度，使得步行到月球完全不切实际。

再来一道推理题，让 Nemotron-70B 与 GPT-4o 一起 PK「薛定谔的猫」实验变体：

一只死猫被放入一个盒子中，盒子里还有一个核同位素、一瓶毒药和一个辐射探测器。如果辐射探测器检测到辐射，它就会释放毒药。一天后打开盒子。猫活着的概率是多少？

Nemotron-70B 考虑很有特点的是，从一开始就考虑到猫就是死的，即便放在盒子一天后，仍旧是死的。

而 GPT-4o 并没有关注初始条件的重要性，而是就盒子里的客观条件，进行分析得出 50% 的概率。

有网友表示，非常期待看到 Nemotron 70B 在自己的 Ryzen 5 / Radeon 5600 Linux 电脑上跑起来是什么样子。

在 40GB + 以上的情况下，它简直就是一头怪兽。

芯片巨头不断开源超强模型

英伟达为何如此热衷于不断开源超强模型？

业内人表示，之所以这么做，就开源模型变得如此优秀，就是为了让所有盈利公司都必须订购更多芯片，来训练越来越复杂的模型。无论如何，人们都需要购买硬件，来运行免费模型。

总之，只要英伟达在定制芯片上保持领先，在神经形态芯片未来上投入足够资金，他们会永远立于不败之地。

无代码初创公司创始人 Andres Kull 心酸地表示，英伟达可以不断开源超强模型。因为他们既有大量资金资助研究者，同时还在不断发展壮大开发生态。

而 Meta 可以依托自己的社交媒体，获得利润上的资助。

然而大模型初创企业的处境就非常困难了，巨头们通过种种手段，在商业落地和名气上都取得了碾压，但小企业如果无法创造利润，将很快失去风头家的资助，迅速倒闭。

而更加可怕的是，英伟达可以以低 1000 倍的成本实现这一点。

如果英伟达真的选择这么做，将无人能与之匹敌。

现在，英伟达占美国 GDP 的 11.7%。而在互联网泡沫顶峰时期，思科仅占美国 GDP 的 5.5%最强开源模型是怎样训练出来的

在训练模型的过程中，奖励模型发挥了很重要的作用，因为它对于调整模型的遵循指令能力至关重要。

主流的奖励模型方法主要有两种：Bradley-Terry 和 Regression。

前者起源于统计学中的排名理论，通过最大化被选择和被拒绝响应之间的奖励差距，为模型提供了一种直接的基于偏好的反馈。

后者则借鉴了心理学中的评分量表，通过预测特定提示下响应的分数来训练模型。这就允许模型对响应的质量进行更细节的评估。

对研究者和从业人员来说，决定采用哪种奖励模型是很重要的。

然而，缺乏证据表明，当数据充分匹配时，哪种方法优于另一种。这也就意味着，现有公共数据集中无法提供充分匹配的数据。

英伟达研究者发现，迄今为止没有人公开发布过与这两种方法充分匹配的数据。

为此，他们集中了两种模型的优点，发布了名为 HelpSteer2-Preference 的高质量数据集。

这样，Bradley-Terry 模型可以使用此类偏好注释进行有效训练，还可以让注释者表明为什么更喜欢一种响应而非另一种，从而研究和利用偏好理由。

他们发现，这个数据集效果极好，训练出的模型性能极强，训出了 RewardBench 上的一些顶级模型（如 Nemotron-340B-Reward）。

主要贡献可以总结为以下三点 ——

1. 开源了一个高质量的偏好建模数据集，这应该是包含人类编写偏好理由的通用领域偏好数据集的第一个开源版本。

2. 利用这些数据，对 Bradley-Terry 风格和 Regression 风格的奖励模型，以及可以利用偏好理由的模型进行了比较。

3. 得出了结合 Bradley-Terry 和回归奖励模型的新颖方法，训练出的奖励模型在 RewardBench 上得分为 94.1 分，这是截止 2024.10.1 表现最好的模型。

HelpSteer2-Preference 数据集

数据收集过程中，注释者都会获得一个提示和两个响应。

他们首先在 Likert-5 量表上，从（有用性、正确性、连贯性、复杂性和冗长性）几个维度上，对每个响应进行注释。

然后在 7 个偏好选项中进行选择，每个选项都与一个偏好分数及偏好理由相关联。

Scale AI 会将每个任务分配给 3-5 个注释者，以独立标记每个提示的两个响应之间的偏好。

严格的数据预处理，也保证了数据的质量。

根据 HelpSteer2，研究者会确定每个任务的三个最相似的偏好注释，取其平均值，并将其四舍五入到最接近的整数，以给出整体偏好。

此外，研究者过滤掉了 10% 的任务，其中三个最相似的注释分布超过 2。

这样就避免了对人类注释者无法自信评估真实偏好的任务进行训练。

HelpSteer2Preference 中不同回应之间的偏好分布与 HelpSteer 2 中它们的帮助评分差异之间的关系

研究者发现，当使用每种奖励模型的最佳形式时，Bradley-Terry 类型和回归类型的奖励模型彼此竞争。

此外，它们可以相辅相成，训练一个以仅限帮助性 SteerLM 回归模型为基础进行初始化的缩放 Bradley-Terry 模型，在 RewardBench 上整体得分达到 94.1。

截至 2024 年 10 月 1 日，这在 RewardBench 排行榜上排名第一。

RewardBench 上的模型表现

最后，这种奖励模型被证明在使用 Online RLHF（特别是 REINFORCE 算法）对齐模型以使其遵循指令方面，非常有用。

如表 4 所示，大多数算法对于 Llama-3.1-70B-Instruct 都有所改进。

对齐模型的性能：所有模型均由 Llama-3.1-70B-Instruct 作为基础模型进行训练

如表 5 所示，对于「Strawberry 中有几个 r」这个问题，只有 REINFORCE 能正确回答这个问题。

参考资料：

https://arxiv.org/pdf/2410.01257

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

本文链接：http://www.28at.com/showinfo-45-9183-0.html英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，仅次于 OpenAI o1

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：千觉机器人获数千万元天使轮融资，高瓴创投领投！

下一篇：人形机器人公司星动纪元完成近 3 亿元 Pre-A 轮融资：阿里巴巴联合领投，联想追投

标签：

热门焦点

拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
沉寂3年，大模型激活小度天猫精灵？

Tech星球（微信ID：tech618）文 | 何煦阳沉寂了许久的智能音箱，在今年大模型横空出世之后，又再次燃起了新的希望。 2月9日，小度宣布将融合文心一言，打造针对智能设备场景的AI模型&ldq
“元宇宙第一股”Roblox缘何被资本市场看“低”？

近期，冬奥会的召开受到广泛关注，而吉祥物冰墩墩也成为新晋“顶流”，“一墩难求”成为普遍心声，为了满足大众需求，nWayPlay平台曾在2月12日发售了一款由国际奥委会官
索尼公布PSVR 2头显渲染图；社区开发者发布Quest版《我的世界》

近日热点：索尼正式公布PSVR 2头显及控制器官方渲染图；入局元宇宙，鸿海科技与XRSPACE签订合作备忘录；研究人员表示面部追踪可增强VR操控体验；社区开发者QuestCraft发
吸金31亿美元，谁在催火2021年的链游？

2021年究竟发生了什么，才使得链游领域在这年一飞冲天？作者：廖羽2022年2月16日，Invest Game发布《2021年全球游戏投资报告》，报告显示，游戏行业的投资重点正在向区块
纽约街头出现NFT自动贩卖机

一家初创公司宣布在纽约市开放一台NFT自动售货机，允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon，上个月完成了一轮300万美元的种子募捐
NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

一些艺术家通过将他们的创作作为NFT出售而获得了巨大收益。令人惊讶的是，许多赚取了数百万美元的艺术家们仍在读高中。这可能有点让人难以置信。然而，请记住，在短
技术赋能，国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

作者:易明未来，Pet Meta数字宠物藏品将是链接全球数亿爱宠人群与元宇宙世界独一无二的身份象征。首家面向国内的宠物元宇宙平台Pet Meta生长于“宠物经济”快速
顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

特别声明，我们的文章不作为投资建议，请各位读者独立思考，还是那句话：投资要慎之又慎，谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，仅次于 OpenAI o1

拯救XR，苹果力不从心

沉寂3年，大模型激活小度天猫精灵？

“元宇宙第一股”Roblox缘何被资本市场看“低”？

索尼公布PSVR 2头显渲染图；社区开发者发布Quest版《我的世界》

吸金31亿美元，谁在催火2021年的链游？

纽约街头出现NFT自动贩卖机

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

技术赋能，国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

最新推荐

刷完一场元宇宙世界杯音乐盛典，我爽了

一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

中国区块链产业生态地图报告（2021）

国内涌现70余家数字藏品平台：合规、流量与利润在博弈

元宇宙风归何处？

a16z：元宇宙办公会取代实体办公室吗？

猜你喜欢

热门推荐

相关资讯