当前位置:首页 > 科技  > 知识百科

性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel

来源: 责编: 时间:2023-08-07 16:30:03 282观看
导读 背景近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆

背景q2D28资讯网——每日最新资讯28at.com

近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力,计算压力和通信压力。q2D28资讯网——每日最新资讯28at.com

q2D28资讯网——每日最新资讯28at.com

The size of language model is growing at an exponential rate (来源:https://huggingface.co/blog/large-language-models)q2D28资讯网——每日最新资讯28at.com

火山引擎大模型训练框架 veGiantModelq2D28资讯网——每日最新资讯28at.com

针对这个需求,字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。其特点包括:q2D28资讯网——每日最新资讯28at.com

同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,同时支持自动化和定制化的并行策略;基于 ByteCCL 高性能异步通讯库,训练任务吞吐相比其他开源框架有 1.2x-3.5x 的提升;提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;可在 GPU上高效地支持数十亿至上千亿参数量的大模型;对带宽要求低,在私有化部署无 RDMA 强依赖。q2D28资讯网——每日最新资讯28at.com

其中,ByteCCL 为字节跳动自研的 BytePS 的升级版,针对 A100/V100 等各种机型拓扑做了分层规约优化,并支持了 allgather、alltoall 等更全面的通讯原语。q2D28资讯网——每日最新资讯28at.com

veGiantModel 性能表现硬件配置q2D28资讯网——每日最新资讯28at.com

为了展示 VeGiantModel 的性能,veGiantModel 团队使用了自建机房的物理机,分别在 A100 和 V100 机型上做了测试,实验配置分别如下:q2D28资讯网——每日最新资讯28at.com

V100 测试:每个机器 8 张 Tesla V100 32G 型号 GPU,网络带宽 100GA100 测试:每个机器 8 张 Ampere A100 40G 型号 GPU,网络带宽 800G模型和对照组选择q2D28资讯网——每日最新资讯28at.com

veGiantModel 选择了 GPT-13B 模型进行评估,seq length 是 256, global batch size 是 1536。GPT 为目前市面上最为流行的 transformer based 语言模型。性能对照组选择了开源社区最流行的 Megatron 和 DeepSpeed。q2D28资讯网——每日最新资讯28at.com

测试结果V100/TCP :100Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla V100 32G GPUV100/RDMA:100Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla V100 32G GPUA100/TCP:800Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla A100 40G GPUA100/RDMA:800Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla A100 40G GPU模型:GPT-13BMegatron:v2.4,tensor-model-parallel-size 设置为 4, pipeline-model-parallel-size 设置为 4DeepSpeed:v0.4.2,使用 DeepSpeedExamples 开源社区中默认的 zero3 的配置运行环境统计值:Throughtput (samples/s)q2D28资讯网——每日最新资讯28at.com

q2D28资讯网——每日最新资讯28at.com

q2D28资讯网——每日最新资讯28at.com

从上述数据可以看出:q2D28资讯网——每日最新资讯28at.com

veGiantModel 性能更优:无论是在高带宽还是低带宽的场下,veGiantModel 在 V100 和 A100 上均胜出 Megatron 和 DeepSpeed,最高可达 6.9 倍提升。veGiantModel 对网络带宽要求低:veGiantModel 在带宽变化对吞吐的影响相对最小 (<10%),而 DeepSpeed(ZeRO) 是对带宽要求最高的,最高可达将近 5 倍的差距。原因解析q2D28资讯网——每日最新资讯28at.com

veGiantModel 为什么比 Megatron 和 DeepSpeed 更快?原因如下:q2D28资讯网——每日最新资讯28at.com

ByteCCL (BytePS) 高性能异步通讯库。支持定制化的并行策略,可以将性能优化推到极致。在支持数据并行、算子切分、流水线并行 3 种分布式并行策略时,veGiantModel 会综合考虑到跨机的带宽,自动调整 toplogy 的 placement。传送门q2D28资讯网——每日最新资讯28at.com

veGiantModel 现已在 GitHub 上开源,地址如下:q2D28资讯网——每日最新资讯28at.com

https://github.com/volcengine/veGiantModelq2D28资讯网——每日最新资讯28at.com

GitHub 上详细介绍了如何使用 veGiantModel 以及如何使用 veGiantModel 快速跑起一个 GPT 的预训练。火山引擎机器学习平台原生支持了 veGiantModel,目前平台正在公测中,欢迎大家试用:https://www.volcengine.com/product/ml-platformq2D28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2229-0.html性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软智能云在华新增数据中心区域正式启用 看好中国市场机会

下一篇: 云计算不相信小厂

标签:
  • 热门焦点
  • Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • 一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • 品牌洞察丨服务本地,美团直播成效几何?

    来源:17PR7月11日,美团App首页推荐位出现&ldquo;美团直播&rdquo;的固定入口。在直播聚合页面,外卖&ldquo;神枪手&rdquo;直播间、美团旅行直播间、美团买菜直播间等均已上线,同时
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的&ldquo;7天甘肃行&rdquo;直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,&ldquo;7
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 小米公益基金会捐赠2500万元驰援北京、河北暴雨救灾

    8月2日消息,今日小米科技创始人雷军在其微博上发布消息称,小米公益基金会宣布捐赠2500万元驰援北京、河北暴雨救灾。携手抗灾,京冀安康!以下为公告原文
  • 华为Mate 60保护壳曝光:硕大后置相机模组 凸起程度有惊喜

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
Top