当前位置:首页 > 元宇宙 > AI

微软推出 FP8 混合精度训练框架:比 BF16 快 64%,内存占用少 42%

来源: 责编: 时间:2023-11-15 17:03:06 344观看
导读 11 月 10 日消息,大语言模型(LLM)快速崛起,在语言生成和理解方面表现出光明的前景,影响超越了语言领域,延伸到逻辑、数学、物理学等领域。不过想要解锁这些“非凡能量”,需要付出高额的代价,例如训练 540B 模型,需要 P

11 月 10 日消息,大语言模型(LLM)快速崛起,在语言生成和理解方面表现出光明的前景,影响超越了语言领域,延伸到逻辑、数学、物理学等领域。4zg28资讯网——每日最新资讯28at.com

4zg28资讯网——每日最新资讯28at.com

不过想要解锁这些“非凡能量”,需要付出高额的代价,例如训练 540B 模型,需要 Project PaLM 的 6144 个 TPUv4 芯片;而训练 175B 的 GPT-3,需要数千 Petaflop/s-day。4zg28资讯网——每日最新资讯28at.com

目前一个不错的解决方案就是低精度训练,可以提高处理速度,降低内存使用量和通信成本。包括 Megatron-LM、MetaSeq 和 Colossal-AI 等主流训练系统,默认使用 FP16 / BF16 混合精度或 FP32 全精度来训练大型语言模型。4zg28资讯网——每日最新资讯28at.com

虽然这些精度水平对于大语言模型来说是必不可少的,但它们的计算成本很高。4zg28资讯网——每日最新资讯28at.com

如果采用 FP8 低精度,可以将速度提高 2 倍、内存成本降低 50% 至 75%,并且可节省通信成本。4zg28资讯网——每日最新资讯28at.com

目前只有 Nvidia Transformer Engine 兼容 FP8 框架,主要利用这种精度进行 GEMM(通用矩阵乘法)计算,同时以 FP16 或 FP32 高精度保持主权重和梯度。4zg28资讯网——每日最新资讯28at.com

为了应对这一挑战,来自 Microsoft Azure 和 Microsoft Research 的一组研究人员推出了一个高效的 FP8 混合精度框架,专为大型语言模型训练量身定制。4zg28资讯网——每日最新资讯28at.com

4zg28资讯网——每日最新资讯28at.com

微软引入了三个优化阶段,利用 FP8 进行分布式和混合精度训练。随着这些层级的进展,FP8 集成程度的提高变得明显,这表明对 LLM 训练过程的影响更大。4zg28资讯网——每日最新资讯28at.com

此外为了克服数据溢出或下溢等问题,微软研究人员提出自动采样和精确解耦两种关键方法,前者涉及对精度不敏感的组件降低精度,动态调整 Tensor 采样因子,以确保梯度值保持在 FP8 表示范围内。这可以防止全减少通信期间的下溢和溢流事件,确保培训过程更加顺畅。4zg28资讯网——每日最新资讯28at.com

微软经过测试,与广泛采用的 BF16 混合精度方法相比,内存占用减少 27% 至 42%,权重梯度通信开销显著降低 63% 至 65%。运行速度比广泛采用的 BF16 框架(例如 Megatron-LM)快了 64%,比 Nvidia Transformer Engine 的速度快了 17%。4zg28资讯网——每日最新资讯28at.com

4zg28资讯网——每日最新资讯28at.com

在训练 GPT-175B 模型时,混合 FP8 精度框架在 H100 GPU 平台上节省 21% 的内存,而且相比较 TE(Transformer Engine),训练时间减少 17%。4zg28资讯网——每日最新资讯28at.com

在此附上 GitHub 地址和论文地址:https://doi.org/10.48550/arXiv.2310.183134zg28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2519-0.html微软推出 FP8 混合精度训练框架:比 BF16 快 64%,内存占用少 42%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: GitHub Copilot Enterprise 明年 2 月推出,允许企业整合自家代码模型创建专用 AI 助手

下一篇: Humane 可穿戴设备 Ai Pin 正式发布:手掌内投影、语音手势交互,699 美元加月订阅费

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
Top