当前位置：首页 > 科技 > 知识百科

性能最高提升 6.9 倍，字节跳动开源大模型训练框架 veGiantModel

来源：责编：时间：2023-08-07 16:30:03 340观看

导读背景近些年，NLP 应用方面有所突破，Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后，人们发现参数量越大的模型，在算法方面表现越好，于是纷纷开始迅速向大模型方向发展，模型体积爆

背景

近些年，NLP 应用方面有所突破，Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后，人们发现参数量越大的模型，在算法方面表现越好，于是纷纷开始迅速向大模型方向发展，模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力，计算压力和通信压力。

The size of language model is growing at an exponential rate (来源：https://huggingface.co/blog/large-language-models)

火山引擎大模型训练框架 veGiantModel

针对这个需求，字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架，veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。其特点包括：

同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略，同时支持自动化和定制化的并行策略；基于 ByteCCL 高性能异步通讯库，训练任务吞吐相比其他开源框架有 1.2x-3.5x 的提升；提供了更友好、灵活的流水线支持，降低了模型开发迭代所需要的人力；可在 GPU上高效地支持数十亿至上千亿参数量的大模型；对带宽要求低，在私有化部署无 RDMA 强依赖。

其中，ByteCCL 为字节跳动自研的 BytePS 的升级版，针对 A100/V100 等各种机型拓扑做了分层规约优化，并支持了 allgather、alltoall 等更全面的通讯原语。

veGiantModel 性能表现硬件配置

为了展示 VeGiantModel 的性能，veGiantModel 团队使用了自建机房的物理机，分别在 A100 和 V100 机型上做了测试，实验配置分别如下：

V100 测试：每个机器 8 张 Tesla V100 32G 型号 GPU，网络带宽 100GA100 测试：每个机器 8 张 Ampere A100 40G 型号 GPU，网络带宽 800G模型和对照组选择

veGiantModel 选择了 GPT-13B 模型进行评估，seq length 是 256, global batch size 是 1536。GPT 为目前市面上最为流行的 transformer based 语言模型。性能对照组选择了开源社区最流行的 Megatron 和 DeepSpeed。

测试结果V100/TCP ：100Gb/s TCP 网络带宽，4 机，每机 8 张 Tesla V100 32G GPUV100/RDMA：100Gb/s RDMA 网络带宽，4 机，每机 8 张 Tesla V100 32G GPUA100/TCP：800Gb/s TCP 网络带宽，4 机，每机 8 张 Tesla A100 40G GPUA100/RDMA：800Gb/s RDMA 网络带宽，4 机，每机 8 张 Tesla A100 40G GPU模型：GPT-13BMegatron：v2.4，tensor-model-parallel-size 设置为 4, pipeline-model-parallel-size 设置为 4DeepSpeed：v0.4.2，使用 DeepSpeedExamples 开源社区中默认的 zero3 的配置运行环境统计值：Throughtput (samples/s)

从上述数据可以看出：

veGiantModel 性能更优：无论是在高带宽还是低带宽的场下，veGiantModel 在 V100 和 A100 上均胜出 Megatron 和 DeepSpeed，最高可达 6.9 倍提升。veGiantModel 对网络带宽要求低：veGiantModel 在带宽变化对吞吐的影响相对最小 (<10%)，而 DeepSpeed(ZeRO) 是对带宽要求最高的，最高可达将近 5 倍的差距。原因解析

veGiantModel 为什么比 Megatron 和 DeepSpeed 更快？原因如下：

ByteCCL (BytePS) 高性能异步通讯库。支持定制化的并行策略，可以将性能优化推到极致。在支持数据并行、算子切分、流水线并行 3 种分布式并行策略时，veGiantModel 会综合考虑到跨机的带宽，自动调整 toplogy 的 placement。传送门

veGiantModel 现已在 GitHub 上开源，地址如下：

https://github.com/volcengine/veGiantModel

GitHub 上详细介绍了如何使用 veGiantModel 以及如何使用 veGiantModel 快速跑起一个 GPT 的预训练。火山引擎机器学习平台原生支持了 veGiantModel，目前平台正在公测中，欢迎大家试用：https://www.volcengine.com/product/ml-platform

本文链接：http://www.28at.com/showinfo-119-2229-0.html性能最高提升 6.9 倍，字节跳动开源大模型训练框架 veGiantModel

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：微软智能云在华新增数据中心区域正式启用看好中国市场机会

下一篇：云计算不相信小厂

标签：

热门焦点

一加Ace2 Pro官宣：普及16G内存引领24G

一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热，公布了内存方面的信息。“淘汰 8GB ，12GB 起步，16GB 普及，24GB 引领，还有呢？#一加Ace2Pro#，2023 年 8 月，敬请期待。”同时
一加Ace2 Pro真机揭晓钛空灰配色质感拉满

终于，在经过了几波预热之后，一加Ace2 Pro的外观真机图在网上出现了。还是博主数码闲聊站曝光的，这次的外观设计还是延续了一加11的方案，只是细节上有了调整，例如新加入了钛空灰
跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王

8月5日消息，Redmi K60至尊版将于8月发布，在此前举行的战略发布会上，官方该机将搭载搭载天玑9200+处理器，安兔兔V10跑分超177万分，是目前安卓阵营最高的分数
一文看懂为苹果Vision Pro开发应用程序

译者 | 布加迪审校 | 重楼苹果的Vision Pro是一款混合现实（MR）头戴设备。Vision Pro结合了虚拟现实（VR）和增强现实（AR）的沉浸感。其高分辨率显示屏、先进的传感器和强大的处理能力
WebRTC.Net库开发进阶，教你实现屏幕共享和多路复用！

WebRTC.Net库：让你的应用更亲民友好，实现视频通话无痛接入！除了基本用法外，还有一些进阶用法可以更好地利用该库。自定义 STUN/TURN 服务器配置WebRTC.Net 默认使用 Google 的
梁柱接棒两年，腾讯音乐闯出新路子

文丨田静出品丨牛刀财经（niudaocaijing）7月5日，企鹅FM发布官方公告称由于业务调整，将于9月6日正式停止运营，这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
由于成本持续增加，笔记本产品价格预计将明显上涨

根据知情人士透露，由于材料、物流等成本持续增加，笔记本产品价格预计将在2021年下半年有明显上涨。进入6月下旬以来，全球半导体芯片缺货情况加剧，显卡、处理器
上海举办人工智能大会活动，建设人工智能新高地

人工智能大会在上海浦江两岸隆重拉开帷幕，人工智能新技术、新产品、新应用、新理念集中亮相。8月30日晚，作为大会的特色活动之一的上海人工智能发展盛典人工
中关村论坛11月25日开幕，15位诺奖级大咖将发表演讲

11月18日，记者从2022中关村论坛新闻发布会上获悉，中关村论坛将于11月25至30日在京举行。本届中关村论坛由科学技术部、国家发展改革委、工业和信息化部、国务

性能最高提升 6.9 倍，字节跳动开源大模型训练框架 veGiantModel

一加Ace2 Pro官宣：普及16G内存引领24G

一加Ace2 Pro真机揭晓钛空灰配色质感拉满

跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王

一文看懂为苹果Vision Pro开发应用程序

WebRTC.Net库开发进阶，教你实现屏幕共享和多路复用！

梁柱接棒两年，腾讯音乐闯出新路子

由于成本持续增加，笔记本产品价格预计将明显上涨

上海举办人工智能大会活动，建设人工智能新高地

中关村论坛11月25日开幕，15位诺奖级大咖将发表演讲

最新推荐

猜你喜欢

热门推荐

相关资讯