当前位置:首页 > 科技  > 数码

摩尔线程发布大模型训练仿真工具SimuMax v1.0:显存误差仅1%

来源: 责编: 时间:2025-09-15 11:47:04 86观看
导读 快科技9月11日消息,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax v1.0,在显存和性能仿真精度上实现了突破性提升,同时引入多项关键功能,进一步增强了模型兼容性、灵活性。SimuMax是一款专为大语言模

快科技9月11日消息,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax v1.0,在显存和性能仿真精度上实现了突破性提升,同时引入多项关键功能,进一步增强了模型兼容性、灵活性。oLb28资讯网——每日最新资讯28at.com

SimuMax是一款专为大语言模型(LLM)分布式训练负载设计的仿真模拟工具,可为从单卡到万卡集群提供仿真支持。oLb28资讯网——每日最新资讯28at.com

它无需实际执行完整训练过程,即可高精度模拟训练中的显存使用和性能表现,帮助用户提前了解训练效率,优化计算效能。oLb28资讯网——每日最新资讯28at.com

基于静态分析模型,摩尔线程自研的SimuMax通过结合成本模型、内存模型和屋顶模型,实现对训练过程的精准仿真。oLb28资讯网——每日最新资讯28at.com

摩尔线程发布大模型训练仿真工具SimuMax v1.0:精度显著提升 显存误差仅1%oLb28资讯网——每日最新资讯28at.com

该工具支持多种主流分布式并行策略与优化技术,适用于以下多种应用场景:oLb28资讯网——每日最新资讯28at.com

1、并行策略:oLb28资讯网——每日最新资讯28at.com

数据并行(DP)、张量并行(TP)、序列并行(SP)、流水线并行(PP)、专家并行(EP)oLb28资讯网——每日最新资讯28at.com

2、优化技术:oLb28资讯网——每日最新资讯28at.com

ZeRO-1、完整重计算、选择性重计算、融合内核等。oLb28资讯网——每日最新资讯28at.com

3、适用对象:oLb28资讯网——每日最新资讯28at.com

希望寻找优训练策略以提升效率的用户;oLb28资讯网——每日最新资讯28at.com

从事框架或大模型算法开发的工程师,用于优化与调试;oLb28资讯网——每日最新资讯28at.com

芯片制造商,用于性能预测与硬件设计辅助。oLb28资讯网——每日最新资讯28at.com

SimuMax 1.0显著的更新在于其仿真精度的大幅提升,为用户提供更可靠的分析结果。oLb28资讯网——每日最新资讯28at.com

针对Dense和MoE(混合专家)模型,显存估计误差稳定控制在1%以内。oLb28资讯网——每日最新资讯28at.com

经测试,在多个主流GPU上,目前优性能估计误差持续低于4%。oLb28资讯网——每日最新资讯28at.com

摩尔线程发布大模型训练仿真工具SimuMax v1.0:精度显著提升 显存误差仅1%oLb28资讯网——每日最新资讯28at.com

此外,SimuMax 1.0还引入了多项新特性,支持更广泛的模型结构和高效率训练需求:oLb28资讯网——每日最新资讯28at.com

MLA支持:oLb28资讯网——每日最新资讯28at.com

新增对MLA模型架构的支持;oLb28资讯网——每日最新资讯28at.com

流水线并行(PP)增强:oLb28资讯网——每日最新资讯28at.com

支持对首阶段和末阶段层的细粒度控制,优化模型分片策略;oLb28资讯网——每日最新资讯28at.com

MoE灵活性提升:oLb28资讯网——每日最新资讯28at.com

在混合专家(MoE)模型中支持自定义Dense层,为模型设计提供了更大的灵活性。oLb28资讯网——每日最新资讯28at.com

Megatron兼容:oLb28资讯网——每日最新资讯28at.com

提供简化的模型迁移流程,可轻松转换和分析基于Megatron框架的模型,提升与现有生态的互操作性。oLb28资讯网——每日最新资讯28at.com

重计算策略优化:oLb28资讯网——每日最新资讯28at.com

实现更细粒度的选择性重计算,支持更精准的内存和计算资源权衡。oLb28资讯网——每日最新资讯28at.com

全面的效率分析:oLb28资讯网——每日最新资讯28at.com

新增对不同张量形状与内存布局下计算效率与利用率的评估功能。oLb28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-181767-0.html摩尔线程发布大模型训练仿真工具SimuMax v1.0:显存误差仅1%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: RTX 5090/5080公版开始消失了!

下一篇: 突然!美国将23家中企列入实体清单 含13家集成电路企业:我国曾多次回应

标签:
  • 热门焦点
  • 卢伟冰长文解析K60至尊版 对Redmi有着里程碑式的意义

    在今天的Redmi后性能时代战略发布会结束之后,Redmi总经理卢伟冰又带来了一篇长文,详解了为什么 Redmi 要开启后性能时代?为什么选择和 MediaTek、Pixelworks 深度合作?以及后性
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 5月iOS设备性能榜:M1 M2依旧是榜单前五

    和上个月一样,没有新品发布的iOS设备性能榜的上榜设备并没有什么更替,仅仅只有跑分变化而产生的排名变动,刚刚开始的苹果WWDC2023,推出的产品也依旧是新款Mac Pro、新款Mac Stu
  • Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 一个注解实现接口幂等,这样才优雅!

    场景码猿慢病云管理系统中其实高并发的场景不是很多,没有必要每个接口都去考虑并发高的场景,比如添加住院患者的这个接口,具体的业务代码就不贴了,业务伪代码如下:图片上述代码有
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 东方甄选单飞:有些鸟注定是关不住的

    作者:彭宽鸿来源:华尔街科技眼‍‍‍‍‍‍‍‍‍‍东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
  • OPPO K11搭载高性能石墨散热系统:旗舰同款 性能凉爽释放

    日前OPPO官方宣布,将于7月25日14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼
Top