当前位置:首页 > 元宇宙 > AI

DeepSeek 开源进度 3 5:深度学习利器 DeepGEMM

来源: 责编: 时间:2025-02-28 12:38:35 147观看
导读 2 月 26 日消息,DeepSeek“开源周”的进度今日来到 3/5:支持稠密和混合专家模型 (MoE) 的 FP8 矩阵乘法 (GEMM) 库,用以驱动 V3 / R1 模型的训练和推理。在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能无复

2 月 26 日消息,DeepSeek“开源周”的进度今日来到 3/5:支持稠密和混合专家模型 (MoE) 的 FP8 矩阵乘法 (GEMM) 库,用以驱动 V3 / R1 模型的训练和推理。wbq28资讯网——每日最新资讯28at.com

wbq28资讯网——每日最新资讯28at.com

在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能wbq28资讯网——每日最新资讯28at.com

无复杂依赖,代码简洁如教程wbq28资讯网——每日最新资讯28at.com

完全采用即时编译技术(Just-In-Time)wbq28资讯网——每日最新资讯28at.com

核心代码仅约 300 行 —— 在大多数矩阵尺寸下超越了专家优化的内核wbq28资讯网——每日最新资讯28at.com

支持稠密布局和两种 MoE 布局wbq28资讯网——每日最新资讯28at.com

附开源链接:https://github.com/deepseek-ai/DeepGEMMwbq28资讯网——每日最新资讯28at.com

官方介绍大意如下:wbq28资讯网——每日最新资讯28at.com

DeepGEMM 是一个专为高效且清晰的 FP8 通用矩阵乘法(GEMM)设计的库,具备 DeepSeek-V3 所提出的精细化缩放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分组 GEMM。wbq28资讯网——每日最新资讯28at.com

该库基于 CUDA 编写,在安装时无需预编译,而是通过轻量级的即时编译(JIT)模块,在运行时动态编译所有内核。wbq28资讯网——每日最新资讯28at.com

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了应对 FP8 张量核心累加不精确的问题,它使用了 CUDA 核心的两级累加(提升)方法。虽然它借鉴了部分 CUTLASS 和 CuTe 的理念,但并未过度依赖它们的模板或代数结构。wbq28资讯网——每日最新资讯28at.com

DeepGEMM 的设计简洁,核心内核函数只有大约 300 行代码,方便学习 Hopper FP8 矩阵乘法和优化技术。wbq28资讯网——每日最新资讯28at.com

尽管采用轻量设计,DeepGEMM 在多种矩阵形状下的性能表现与专家优化的库相当,甚至更好。wbq28资讯网——每日最新资讯28at.com

我们在 H800 上,使用 NVCC 12.8 测试了 DeepSeek-V3 / R1 推理中可能用到的各种矩阵形状(包括预填充和解码,但不涉及张量并行)。所有加速指标都是相对于我们内部精心优化的 CUTLASS 3.6 实现计算的。wbq28资讯网——每日最新资讯28at.com

DeepGEMM 在某些矩阵形状下的表现不尽如人意,欢迎有兴趣的朋友提交优化 PR。wbq28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11196-0.htmlDeepSeek 开源进度 3 5:深度学习利器 DeepGEMM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 香港:预留 10 亿港元成立人工智能研发院

下一篇: 豪掷 2000 亿美元,消息称 Meta 正洽谈 AI 数据中心园区新项目

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • FMIFAwards奖项即将揭晓!

    来源:X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • 以用户为中心,Web3和区块链如何将用户放在首位

    竞争优势正在改变竞争优势是每个企业都在努力争取的,由谷歌、Facebook和Netflix等大型科技公司主导的市场中,两大重要类别的竞争优势十分突出。第一个竞争优势来
  • NFT世界的艺术家名单

    我们汇编了以下艺术家的名单,它包括每个艺术家的简短概述。当然,这份名单肯定不全面,还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
  • 超级账本Julian Gordon:联盟链与公链的竞争不是非此即彼

    在2021年《福布斯》区块链50强榜单中,29家企业使用Hyperledger超级账本技术,占比近60%。同年,研究机构Blockdata发布了的调查报告显示,访问Top100上市公司中,有 81
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top