当前位置：首页 > 元宇宙 > AI

英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载

来源：责编：时间：2024-09-27 16:34:24 208观看

导读 9 月 25 日消息，英伟达 9 月 23 日发布博文，宣布推出 Llama-3.1-Nemotron-51B AI 模型，源自 Meta 公司的 Llama-3.1-70B，不过创新使用神经架构搜索（NAS）方法，建立了一个高度准确和高效的模型。Llama-3.1-Nemotron-51

9 月 25 日消息，英伟达 9 月 23 日发布博文，宣布推出 Llama-3.1-Nemotron-51B AI 模型，源自 Meta 公司的 Llama-3.1-70B，不过创新使用神经架构搜索（NAS）方法，建立了一个高度准确和高效的模型。

Llama-3.1-Nemotron-51B 简介

Llama-3.1-Nemotron-51B AI 模型基于Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型，共有 510 亿参数。

该 AI 模型主要采用了神经架构搜索（NAS）技术微调，平衡性能和效率，在高工作负荷下，只需要一片 H100 GPU 即可运行，大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下，显著降低了内存占用、内存带宽和 FLOPs，并证明可以在创建另一个更小、更快的变体来加以推广。

Llama-3.1-Nemotron-51B 性能

相比较 Meta 的 Llama-3.1-70B 模型，Llama-3.1-Nemotron-51B 在保持了几乎相同的精度情况下，推理速度提高了 2.2 倍。

准确率能效 MT BenchMMLUText generation(128/1024)Summarization/ RAG (2048/128)Llama-3.1- Nemotron-51B- Instruct8.9980.2%6472653Llama 3.1-70B- Instruct8.9381.66%2975339Llama 3.1-70B- Instruct (single GPU)——1274301Llama 3-70B8.9480.17%2975339效率和性能方面的突破

开发 LLM 过程中面临的主要挑战之一是如何平衡精度与计算效率。许多大规模模型都能提供最先进的结果，但却需要耗费大量的硬件和能源资源，这限制了它们的适用性。

英伟达的新模型在这两个相互竞争的因素之间取得了微妙的平衡。

Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度与效率权衡，减少了内存带宽，降低了每秒浮点运算次数 (FLOP)，并减少了总体内存占用，同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

改进工作量管理，提高成本效益

Llama-3.1-Nemotron-51B 的一个突出特点是能够在单个 GPU 上管理更大的工作负载。该型号允许开发人员在更具成本效益的环境中部署高性能 LLMs，在一个 H100 设备上运行以前需要多个 GPU 才能完成的任务。

Llama-3.1-Nemotron-51B 模型还减少了内存占用，在推理过程中可以在单个 GPU 上运行 4 倍以上的工作负载，从而带来了一系列新的机遇。

架构优化：成功的关键

Llama-3.1-Nemotron-51B 的成功主要归功于一种新颖的结构优化方法。传统上，LLMs 是使用相同的块构建的，这些块在整个模型中重复出现。

这虽然简化了构建过程，但也带来了效率低下的问题，特别是在内存和计算成本方面。

英伟达通过采用 NAS 技术来优化推理模型，从而解决了这些问题。该团队采用了分块蒸馏过程，即训练更小、更高效的学生模型（student model），以模仿更大的教师模型（teacher model）的功能。

通过完善这些学生模型并评估其性能，英伟达开发出了 Llama-3.1 版本，在大幅降低资源需求的同时，还能提供类似的准确度。

Puzzle 算法和知识蒸馏

Llama-3.1-Nemotron-51B 有别于其他模型的另一个关键组件，就是 Puzzle 算法。

该算法对模型中的每个潜在区块进行评分，并确定哪些配置能在速度和精度之间取得最佳平衡。

跑分 Llama-3.1 70B-instructLlama-3.1-Nemotron-51B- Instruct 准确率winogrande85.08%84.53%99.35%arc_challenge70.39%69.20%98.30%MMLU81.66%80.20%98.21%hellaswag86.44%85.58%99.01%gsm8k92.04%91.43%99.34%truthfulqa59.86%58.63%97.94%xlsum_english33.86%31.61%93.36%MMLU Chat81.76%80.58%98.55%gsm8k Chat81.58%81.88%100.37%Instruct HumanEval (n=20)75.85%73.84%97.35%MT Bench8.938.99100.67%

通过使用知识蒸馏技术，Nvidia 缩小了参考模型（Llama-3.1-70B）与 Nemotron-51B 之间的精度差距，同时显著降低了训练成本。

场景 Input/Output Sequence LengthLlama-3.1- Nemotron- InstructLlama-3.1-70B-InstructRatioLlama (TP1)Chatbot128/1285478 (TP1)2645 (TP1)2.072645Text generation128/10246472 (TP1)2975 (TP4)2.171274Long text generation128/20484910 (TP2)2786 (TP4)1.76646System 2 reasoning128/40963855 (TP2)1828 (TP4)2.11313Summarization/ RAG2048/128653 (TP1)339 (TP4)1.92300Stress test 12048/20482622 (TP2)1336 (TP4)1.96319

附上参考地址

Advancing the Accuracy-Efficiency Frontier with Llama-3.1-Nemotron-51B

Nvidia AI Releases Llama-3.1-Nemotron-51B: A New LLM that Enables Running 4x Larger Workloads on a Single GPU During Inference

本文链接：http://www.28at.com/showinfo-45-7797-0.html英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：星纪魅族正在开发星纪战车、机器人等新品

下一篇：微软发布新工具，检测和纠正 AI 幻觉内容

标签：

热门焦点

元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
冰墩墩还能火多久？

作者：田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁，冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推，以及日
元宇宙社交时代，华丽归来的超级QQ秀重构虚拟社交场景

作者:狂人不知不觉间，QQ已经迎来了第23个生日。作为国内社交平台的起点，QQ可谓是睥睨全网，不仅有庞大的用户群体，还将虚拟形象及QQ整合成在线虚拟社区，开启了时髦
过去女性在互联网领域是半边天，在Web3，将会是整片天！

Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中，如果女性在创造性方面发挥更大的作用，可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
技术赋能，国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

作者:易明未来，Pet Meta数字宠物藏品将是链接全球数亿爱宠人群与元宇宙世界独一无二的身份象征。首家面向国内的宠物元宇宙平台Pet Meta生长于“宠物经济”快速
知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

根据市场追踪网站 DappRadar 的数据，随着 NFT 的“出圈”与加密货币的普及，NFT 市场在 2021 年的销售额达到约 250 亿美元，而 2020 年仅为 9490 万美元，同比增超 2
元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

近日，毕马威正式发布其《初探元宇宙》报告，这也是毕马威在元宇宙领域发布的首份报告。报告指出，元宇宙在以下十个领域的应用场景尤其值得期待，包括娱乐、社交、零
元宇宙+剧本杀：“在异世界里当演员”

你玩过剧本杀吗？体验过“元宇宙+剧本杀”吗？2月，恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造，通过VR技术塑造了与
我们为什么需要Web3，距离Web3的实现还有多远？

当今技术正在经历着重要的变革，许多公司正在改变他们的经营模式以求变得更加的灵活，其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3，

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载

元宇宙是投资中国的第五次重大机遇

冰墩墩还能火多久？

元宇宙社交时代，华丽归来的超级QQ秀重构虚拟社交场景

过去女性在互联网领域是半边天，在Web3，将会是整片天！

技术赋能，国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

元宇宙+剧本杀：“在异世界里当演员”

我们为什么需要Web3，距离Web3的实现还有多远？

最新推荐

AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

中文在线的“元宇宙”故事，资本听腻了？

多地释放积极信号，元宇宙正成为地方争先竞逐的主战场？

纽约街头出现NFT自动贩卖机

参加元宇宙里的招聘会是什么样一种体验？

新闻业在元宇宙的现状和未来

猜你喜欢

热门推荐

相关资讯