当前位置:首页 > 科技  > 软件

引领大模型推理效率革命!浪潮存储领先发布推理加速存储 AS3000G7

来源: 责编: 时间:2025-07-31 09:55:49 180观看
导读 2025 年 7 月 25 日,浪潮存储营销总监张业兴出席中国信息通信研究院主办的 2025(第二届)产融合作大会。会上,张业兴发表题为《融存智用运筹新数据 —— 浪潮存储金融解决方案和实践》的主题演讲,并代表浪潮存储领

2025 年 7 月 25 日,浪潮存储营销总监张业兴出席中国信息通信研究院主办的 2025(第二届)产融合作大会。会上,张业兴发表题为《融存智用运筹新数据 —— 浪潮存储金融解决方案和实践》的主题演讲,并代表浪潮存储领先发布推理加速存储 AS3000G7。该产品凭借“以存代算”的技术创新,有效破解 KV Cache 重复计算带来的算力和时延损耗难题,为大模型推理场景提供突破性解决方案,加速推动大模型在金融、科研等领域的规模化落地。Slb28资讯网——每日最新资讯28at.com

Slb28资讯网——每日最新资讯28at.com

大模型推理效能瓶颈:吞吐量和时延Slb28资讯网——每日最新资讯28at.com

当前人工智能大模型的应用已渗透千行百业,既推动着产业效能的跨越式提升,也深刻重构着生产生活的底层逻辑,成为驱动数字经济发展与社会智能化升级的核心力量。随着大模型应用的普及和相关技术的发展,各行各业对大模型应用的关注点逐渐从大模型的训练转到大模型的推理。据 IDC 数据显示,智能算力规模在未来 5 年增长 1.7 倍,用于推理的工作负载将从 2023 年的 40% 上升到 2027 年的 70% 以上。因此,大模型推理将会成为未来大模型应用的焦点。然而,当前大模型推理仍然需要借助 GPU 服务器来实现,而 GPU 服务器,也是整个大模型落地中最昂贵的投资。因此,充分发挥 GPU 服务器的利用率来提升大模型推理效率是大模型的落地关键,推理效率的高低直接决定着大模型从“实验室”到“生产线”的落地速度。Slb28资讯网——每日最新资讯28at.com

大模型推理效率面临两大核心瓶颈:吞吐量(Tokens / s)和时延。吞吐量是指系统在单位时间内能处理的 tokens 的数量,数值越高表明 LLM 服务资源利用率越高、系统成本越低。时延则是用户接收每个 token 的平均耗时,其中首字时延(TTFT)是长文本对话场景中“实时交互体验”的核心指标,直接影响用户体验。Slb28资讯网——每日最新资讯28at.com

大模型的推理包含两个阶段,第一个阶段是预填充 (Prefilling) 阶段。Prefilling 阶段处理输入,构建初始上下文并缓存成 KV Cache (key-value 键值对),缓存在 GPU 的 HBM 显存里。第二个阶段是解码 (Decode) 阶段,解码阶段则利用 Prefilling 阶段生成的 KV Cache,迭代地生成输出 Token,最终给出推理答案。Slb28资讯网——每日最新资讯28at.com

根据大数据统计分析,超过 76% 的对话都是多轮的,多轮对话会产生大量的 KV Cache,上一轮的对话产生的 KV Cache 也会作为下一轮推理的输入基础,为连续交互提供上下文支撑。但实际场景中,GPU HBM 显存容量存在明显限制,因此多轮对话中的 KV Cache 会被强制丢弃,在下一轮对话中需要消耗算力来重新计算。以 DeepSeek 70B 模型为例,其每 10 分钟产生的 KV Cache 高达 25TB,但每张 GPU HBM 显存只有几十 GB,因此,在服务完一个请求后,需清空显存以接纳新请求,KV Cache 被强制丢弃,在后续对话中,原本可复用的 KV Cache 需要重新计算。这种重复计算直接时延增加(首字响应变慢),同时造成 GPU 算力空转(重复执行相同计算),导致吞吐量下降,最终导致资源利用率降低。因此,高效管理 KV Cache 缓存成为提升推理效率的关键。Slb28资讯网——每日最新资讯28at.com

存储产品托管 KV Cache,实现“以存代算”Slb28资讯网——每日最新资讯28at.com

浪潮存储 AS3000G7 作为业内领先推理加速存储,可存储所有 KV Cache 及多轮对话结果。其创新架构通过将 KV Cache 从 GPU 写入本机内存,再经高速网络缓存至 AS3000G7,下轮对话时按需拉取缓存无需重新计算,彻底实现“以存代算”,显著节省算力消耗并提升资源利用率。Slb28资讯网——每日最新资讯28at.com

Slb28资讯网——每日最新资讯28at.com

作为业内领先推理加速存储产品,AS3000G7 以四大核心优势重塑推理效率:Slb28资讯网——每日最新资讯28at.com

降低响应延迟:将历史 Token 缓存至 AS3000G7 存储层,下轮对话从 NVMe SSD 硬盘中拉取历史 token 的 KV Cache,减少 GPU 重复计算带来的资源消耗,TTFT 降低 90%;Slb28资讯网——每日最新资讯28at.com

承载更多并发:TTFT 在 400ms 以内的前提下,系统可支持的吞吐量(Token / s)可达原方案 5 倍,单位 GPU 资源可承载更多推理请求;Slb28资讯网——每日最新资讯28at.com

降低 GPU 功耗:TTFT 的降低与并发的提升,单 Token 平均功耗下降 60%,在承载同等规模 token 负载时,GPU 服务器整机功耗降低。Slb28资讯网——每日最新资讯28at.com

生态兼容适配:广泛兼容国产与海外芯片的异构算力平台,深度适配 vLLM 框架下的 deepseek 等主流大模型,优化推理体验。Slb28资讯网——每日最新资讯28at.com

在某头部客户联合测试中,采用 1 台 GPU 服务器搭配 1 台 AS3000G7 推理加速存储的组合方案实现:Slb28资讯网——每日最新资讯28at.com

稳定支撑 500 + 并发对话,TTFT 降低 90%,响应速度大幅提升Slb28资讯网——每日最新资讯28at.com

同硬件配置下吞吐量(Tokens / s)提升 5 倍,在不增加 GPU 资源的情况下,实现更高并发的推理请求Slb28资讯网——每日最新资讯28at.com

单 token 功耗降低 70%,单位算力成本降低 60%,推理性价比提升Slb28资讯网——每日最新资讯28at.com

Slb28资讯网——每日最新资讯28at.com

随着大模型推理需求的持续攀升,AS3000G7 的推出恰逢其时。其通过“以存代算”的技术创新突破 KV Cache 重计算瓶颈,为 AI 规模化应用筑牢存储根基。未来,随着多模态与实时交互场景的普及以及存储与计算的协同优化,KV Cache“以存代算”将成为降本增效的核心竞争力,为智能时代的推理存储构建新基准。Slb28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-174465-0.html引领大模型推理效率革命!浪潮存储领先发布推理加速存储 AS3000G7

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 80 亿美元,甲骨文创始人埃里森之子收购派拉蒙获批准

下一篇: 华为新款鸿蒙旗舰平板电脑正式开售:预装 HarmonyOS 5,鸿蒙电脑应用登陆平板

标签:
  • 热门焦点
  • CSS单标签实现转转logo

    转转品牌升级后更新了全新的Logo,今天我们用纯CSS来实现转转的新Logo,为了有一定的挑战性,这里我们只使用一个标签实现,将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的“在线鉴别”,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 造车两年股价跌六成,小米的估值逻辑变了吗?

    如果从小米官宣造车后的首个交易日起持有小米集团的股票,那么截至2023年上半年最后一个交易日,投资者将浮亏59.16%,同区间的恒生科技指数跌幅为52.78%
  • 引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

    7月25日,OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力,突破性地搭载索尼 IMX890 旗舰大底主摄,支持 OIS
  • 苹果140W USB-C充电器:采用氮化镓技术

    据10 月 30 日 9to5 Mac 消息报道,当苹果推出新的 MacBook Pro 2021 时,该公司还推出了新的 140W USB-C 充电器,附赠在 MacBook Pro 16 英寸机型的盒子里,也支
  • onebot M24巧系列一体机采用轻薄机身设计,现已在各平台开售

    onebot M24 巧系列一体机目前已在线上线下各平台同步开售。onebot M24 巧系列采用一体化轻薄机身设计,最薄处为 10.15mm,拥有宝石红、午夜蓝、石墨绿、雅致
  • 中关村论坛11月25日开幕,15位诺奖级大咖将发表演讲

    11月18日,记者从2022中关村论坛新闻发布会上获悉,中关村论坛将于11月25至30日在京举行。本届中关村论坛由科学技术部、国家发展改革委、工业和信息化部、国务
Top