当前位置:首页 > 科技  > 数码

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

来源: 责编: 时间:2025-02-13 10:50:03 168观看
导读 快科技2月10日消息,DeepSeek大模型火遍海内外,AMD Instinct数据中心GPU第一时间实现了对新版DeepSeek V3的支持,并且集成了SGLang推理框架优化,从而提供佳性能。据介绍,DeepSeek-V3是一种强大的开源混合专家MoE

快科技2月10日消息,DeepSeek大模型火遍海内外,AMD Instinct数据中心GPU第一时间实现了对新版DeepSeek V3的支持,并且集成了SGLang推理框架优化,从而提供佳性能。CiN28资讯网——每日最新资讯28at.com

据介绍,DeepSeek-V3是一种强大的开源混合专家MoE模型,共有6710亿个参数,是目前开源社区受欢迎的多模态模型之一,凭借创新的模型架构,打破了高效低成本训练的记录,获得整个行业交口称赞。CiN28资讯网——每日最新资讯28at.com

DeepSeek-V3不仅沿用了此前DeepSeek V2中的多头潜在注意力机制MLA、MoE架构,还开创了无辅助损失的负载平衡策略,并设定了多token预测训练目标,以提高性能。CiN28资讯网——每日最新资讯28at.com

目前,DeepSeek-V3在众多主流基准测试中的表现都已比肩世界顶级开源、闭源模型,包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等,尤其是拥有超强的长文本处理、数学及代码编程能力。CiN28资讯网——每日最新资讯28at.com

AMD ROCm开源软件、AMD Instinct数据中心GPU加速器软硬联合,构成了强大的基础设施,在DeepSeek-V3开发的关键阶段发挥了重要作用,再次证明了AMD对开源AI软件的承诺,也能帮助开发者打造强大的视觉推理和理解应用。CiN28资讯网——每日最新资讯28at.com

DeepSeek-V3的另一大亮点是采用FP8低精度训练,而AMD ROCm平台对于FP8的支持,显著改善了大模型的计算过程,尤其是推理性能的提升。CiN28资讯网——每日最新资讯28at.com

通过支持FP8,AMD ROCm非常高效地解决了内存瓶颈、更多读写格式高延迟等问题,可以在一定的硬件限制内,运行更大的模型或批次。CiN28资讯网——每日最新资讯28at.com

相较于FP16,FP8精度计算可以显著减少数据传输和计算的延迟,实现更高效地训练和推理。CiN28资讯网——每日最新资讯28at.com

乘着DeepSeek的东风,AMD将继续推进ROCm开源开发生态,确保开发者能在第一时间基于AMD Instinct数据中心GPU从事DeepSeek相关的开发和应用工作,实现佳性能和扩展性。CiN28资讯网——每日最新资讯28at.com

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著CiN28资讯网——每日最新资讯28at.com

AMD官方博客传送门:CiN28资讯网——每日最新资讯28at.com

https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.htmlCiN28资讯网——每日最新资讯28at.com

附录:AMD Instinct数据中心GPU使用SGLang推理简单教程——CiN28资讯网——每日最新资讯28at.com

开发者可访问https://github.com/sgl-project/sglang/releases,获取SGLang对DeepSeek-V3模型推理的完整支持。CiN28资讯网——每日最新资讯28at.com

创建ROCm Docker镜像CiN28资讯网——每日最新资讯28at.com

1、启动Docker容器:CiN28资讯网——每日最新资讯28at.com

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host //CiN28资讯网——每日最新资讯28at.com

      --device=/dev/kfd   --device=/dev/dri    --security-opt CiN28资讯网——每日最新资讯28at.com

seccomp=unconfined // CiN28资讯网——每日最新资讯28at.com

      --group-add video  --privileged  -w /workspaceCiN28资讯网——每日最新资讯28at.com

lmsysorg/sglang:v0.4.1.post4-rocm620CiN28资讯网——每日最新资讯28at.com

2、开始使用:CiN28资讯网——每日最新资讯28at.com

 1)登录Hugging Face:CiN28资讯网——每日最新资讯28at.com

使用CLI登录Hugging Face:CiN28资讯网——每日最新资讯28at.com

 huggingface-cli loginCiN28资讯网——每日最新资讯28at.com

 2)启动SGLang服务器:CiN28资讯网——每日最新资讯28at.com

 在本地机器上启动一个服务器来托管DeepSeekV3 FP8模型:CiN28资讯网——每日最新资讯28at.com

 python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 -- port 30000 --tp 8 --trust-remote-codeCiN28资讯网——每日最新资讯28at.com

 3)生成文本:CiN28资讯网——每日最新资讯28at.com

 在服务器运行后,打开另一个终端并发送请求生成文本:CiN28资讯网——每日最新资讯28at.com

 curl http://localhost:30000/generate /CiN28资讯网——每日最新资讯28at.com

    -H "Content-Type: application/json" /CiN28资讯网——每日最新资讯28at.com

    -d '{CiN28资讯网——每日最新资讯28at.com

       "text": "Once upon a time,",CiN28资讯网——每日最新资讯28at.com

       "sampling_params": {CiN28资讯网——每日最新资讯28at.com

         "max_new_tokens": 16,CiN28资讯网——每日最新资讯28at.com

         "temperature": 0CiN28资讯网——每日最新资讯28at.com

        }CiN28资讯网——每日最新资讯28at.com

      }'CiN28资讯网——每日最新资讯28at.com

3、性能基准测试:CiN28资讯网——每日最新资讯28at.com

单批次吞吐量和延迟:CiN28资讯网——每日最新资讯28at.com

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codeCiN28资讯网——每日最新资讯28at.com

服务器:CiN28资讯网——每日最新资讯28at.com

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-codeCiN28资讯网——每日最新资讯28at.com

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8CiN28资讯网——每日最新资讯28at.com

精度:0.952CiN28资讯网——每日最新资讯28at.com

无效:0.000CiN28资讯网——每日最新资讯28at.com

注意:由于DeepSeek-v3原生为FP8 训练,且目前仅提供 FP8 权重,如果用户需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。以下是将 FP8 权重转换为 BF16 的示例:CiN28资讯网——每日最新资讯28at.com

cd inferenceCiN28资讯网——每日最新资讯28at.com

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weightsCiN28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-130048-0.htmlAMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 蓝宝石自曝RX 9070 XT:纯白设计 煞是好看

下一篇: 铠侠全面展示AI SSD:不只是快 稳定性更高达99.999%!

标签:
  • 热门焦点
  • Find N3入网:最高支持16+1TB

    OPPO将于近期登场的Find N3折叠屏目前已经正式入网,型号为PHN110。本次Find N3在外观方面相比前两代有很大的变化,不再是小号的横向折叠屏,而是跟别的厂商一样采用了较为常见的
  • 小米平板5 Pro 12.4简评:多专多能 兼顾影音娱乐的大屏利器

    疫情带来了网课,网课盘活了安卓平板,安卓平板市场虽然中途停滞了几年,但好的一点就是停滞的这几年行业又有了新的发展方向,例如超窄边框、高刷新率、多摄镜头组合等,这就让安卓
  • 容量越大越不坏?24万块硬盘故障率报告公布 这些产品零故障

    8月5日消息,云存储服务商Backblaze发布了最新的硬盘故障率报告,年故障率有所上升。Backblaze发布的硬盘季度统计数据,其中包括故障率等重要方面。这些结
  • 一年经验在二线城市面试后端的经验分享

    忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验,请果断划走,对你没啥帮助~主人公这篇文章内容来自 「升职加薪」星球星友 的投稿,坐
  • Flowable工作流引擎的科普与实践

    一.引言当我们在日常工作和业务中需要进行各种审批流程时,可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • Windows 11发布,微软一改往常对老机型开放的态度

    距离 Windows 11 发布已经过去一周,在过去一周里,很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是,在这次大
Top