当前位置:首页 > 科技  > 数码

原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

来源: 责编: 时间:2025-02-27 08:16:17 157观看
导读 快科技2月26日消息,DeepSeek启动“开源周”以来,已经陆续开源了三个代码库,而作为国产GPU的代表,摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。摩尔线程GPU基于全新的MUSA Compute Capability 3

快科技2月26日消息,DeepSeek启动“开源周”以来,已经陆续开源了三个代码库,而作为国产GPU的代表,摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。HJ628资讯网——每日最新资讯28at.com

摩尔线程GPU基于全新的MUSA Compute Capability 3.1计算架构,可提供原生的FP8精度计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持FlashMLA。HJ628资讯网——每日最新资讯28at.com

不仅如此,摩尔线程还基于MUTLASS,在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。HJ628资讯网——每日最新资讯28at.com

原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMMHJ628资讯网——每日最新资讯28at.com

FlashMLA是一款高效的MLA推理内核开源仓库,可以加速MLA机制的计算,特别适用于DeepSeek系列模型,包括DeepSeek-V2、V3、R1。HJ628资讯网——每日最新资讯28at.com

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,可以为V3/R1的训练与推理提供强大动力。HJ628资讯网——每日最新资讯28at.com

这两个重要的开源仓库,都基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。HJ628资讯网——每日最新资讯28at.com

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU,具备全新的Tensor计算引擎及数据搬运引擎,能够提供原生FP8计算能力。HJ628资讯网——每日最新资讯28at.com

升级的MUTLASS高性能线性代数模板库,支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的优化参考实现,包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。HJ628资讯网——每日最新资讯28at.com

得益于全新的Tensor计算引擎,FP8计算具有足够高的累加精度,无需额外的二次精度修正,为前沿算法的探索打下了坚实基础。 HJ628资讯网——每日最新资讯28at.com

原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMMHJ628资讯网——每日最新资讯28at.com

借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。HJ628资讯网——每日最新资讯28at.com

同时,摩尔线程MUTLASS提供了一个全新的参考实现,充分汲取FlashAttention3的先进算法思想,针对摩尔线程GPU设计了全新的计算流水线。HJ628资讯网——每日最新资讯28at.com

这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销,充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。HJ628资讯网——每日最新资讯28at.com

▼ MT-FlashMLA开源地址:HJ628资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/MT-flashMLAHJ628资讯网——每日最新资讯28at.com

▼ MUTLASS FlashAttention3地址:HJ628资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwdHJ628资讯网——每日最新资讯28at.com

▼ MUTLASS FP8 GEMM地址:HJ628资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builderHJ628资讯网——每日最新资讯28at.com

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemmHJ628资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-133910-0.html原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: EK 推出 RTX 5090 FE 专属水冷头,329.90 欧元,支持三区 PCB 设计

下一篇: RTX 5060 Ti功耗小幅增至180W:还是8/16GB两种显存

标签:
  • 热门焦点
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • 学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • iQOO 11S新品发布会

    iQOO将在7月4日19:00举行新品发布会,推出杭州亚运会电竞赛事官方用机iQOO 11S。
  • DRAM存储器10月价格下跌,NAND闪存本月价格与上月持平

    10月30日,据韩国媒体消息,自今年年初以来一直在上涨的 DRAM 存储器的交易价格仅在本月就下跌了近 10%,此次是全年首次降价,而NAND 闪存本月价格与上月持平。市
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
Top