当前位置：首页 > 科技 > 软件

引领大模型推理效率革命！浪潮存储领先发布推理加速存储 AS3000G7

来源：责编：时间：2025-07-31 09:55:49 222观看

导读 2025 年 7 月 25 日，浪潮存储营销总监张业兴出席中国信息通信研究院主办的 2025（第二届）产融合作大会。会上，张业兴发表题为《融存智用运筹新数据 —— 浪潮存储金融解决方案和实践》的主题演讲，并代表浪潮存储领

2025 年 7 月 25 日，浪潮存储营销总监张业兴出席中国信息通信研究院主办的 2025（第二届）产融合作大会。会上，张业兴发表题为《融存智用运筹新数据 —— 浪潮存储金融解决方案和实践》的主题演讲，并代表浪潮存储领先发布推理加速存储 AS3000G7。该产品凭借“以存代算”的技术创新，有效破解 KV Cache 重复计算带来的算力和时延损耗难题，为大模型推理场景提供突破性解决方案，加速推动大模型在金融、科研等领域的规模化落地。

大模型推理效能瓶颈：吞吐量和时延

当前人工智能大模型的应用已渗透千行百业，既推动着产业效能的跨越式提升，也深刻重构着生产生活的底层逻辑，成为驱动数字经济发展与社会智能化升级的核心力量。随着大模型应用的普及和相关技术的发展，各行各业对大模型应用的关注点逐渐从大模型的训练转到大模型的推理。据 IDC 数据显示，智能算力规模在未来 5 年增长 1.7 倍，用于推理的工作负载将从 2023 年的 40% 上升到 2027 年的 70% 以上。因此，大模型推理将会成为未来大模型应用的焦点。然而，当前大模型推理仍然需要借助 GPU 服务器来实现，而 GPU 服务器，也是整个大模型落地中最昂贵的投资。因此，充分发挥 GPU 服务器的利用率来提升大模型推理效率是大模型的落地关键，推理效率的高低直接决定着大模型从“实验室”到“生产线”的落地速度。

大模型推理效率面临两大核心瓶颈：吞吐量（Tokens / s）和时延。吞吐量是指系统在单位时间内能处理的 tokens 的数量，数值越高表明 LLM 服务资源利用率越高、系统成本越低。时延则是用户接收每个 token 的平均耗时，其中首字时延（TTFT）是长文本对话场景中“实时交互体验”的核心指标，直接影响用户体验。

大模型的推理包含两个阶段，第一个阶段是预填充 (Prefilling) 阶段。Prefilling 阶段处理输入，构建初始上下文并缓存成 KV Cache (key-value 键值对)，缓存在 GPU 的 HBM 显存里。第二个阶段是解码 (Decode) 阶段，解码阶段则利用 Prefilling 阶段生成的 KV Cache，迭代地生成输出 Token，最终给出推理答案。

根据大数据统计分析，超过 76% 的对话都是多轮的，多轮对话会产生大量的 KV Cache，上一轮的对话产生的 KV Cache 也会作为下一轮推理的输入基础，为连续交互提供上下文支撑。但实际场景中，GPU HBM 显存容量存在明显限制，因此多轮对话中的 KV Cache 会被强制丢弃，在下一轮对话中需要消耗算力来重新计算。以 DeepSeek 70B 模型为例，其每 10 分钟产生的 KV Cache 高达 25TB，但每张 GPU HBM 显存只有几十 GB，因此，在服务完一个请求后，需清空显存以接纳新请求，KV Cache 被强制丢弃，在后续对话中，原本可复用的 KV Cache 需要重新计算。这种重复计算直接时延增加（首字响应变慢），同时造成 GPU 算力空转（重复执行相同计算），导致吞吐量下降，最终导致资源利用率降低。因此，高效管理 KV Cache 缓存成为提升推理效率的关键。

存储产品托管 KV Cache，实现“以存代算”

浪潮存储 AS3000G7 作为业内领先推理加速存储，可存储所有 KV Cache 及多轮对话结果。其创新架构通过将 KV Cache 从 GPU 写入本机内存，再经高速网络缓存至 AS3000G7，下轮对话时按需拉取缓存无需重新计算，彻底实现“以存代算”，显著节省算力消耗并提升资源利用率。

作为业内领先推理加速存储产品，AS3000G7 以四大核心优势重塑推理效率：

降低响应延迟：将历史 Token 缓存至 AS3000G7 存储层，下轮对话从 NVMe SSD 硬盘中拉取历史 token 的 KV Cache，减少 GPU 重复计算带来的资源消耗，TTFT 降低 90%；

承载更多并发：TTFT 在 400ms 以内的前提下，系统可支持的吞吐量（Token / s）可达原方案 5 倍，单位 GPU 资源可承载更多推理请求；

降低 GPU 功耗：TTFT 的降低与并发的提升，单 Token 平均功耗下降 60%，在承载同等规模 token 负载时，GPU 服务器整机功耗降低。

生态兼容适配：广泛兼容国产与海外芯片的异构算力平台，深度适配 vLLM 框架下的 deepseek 等主流大模型，优化推理体验。

在某头部客户联合测试中，采用 1 台 GPU 服务器搭配 1 台 AS3000G7 推理加速存储的组合方案实现：

稳定支撑 500 + 并发对话，TTFT 降低 90%，响应速度大幅提升

同硬件配置下吞吐量（Tokens / s）提升 5 倍，在不增加 GPU 资源的情况下，实现更高并发的推理请求

单 token 功耗降低 70%，单位算力成本降低 60%，推理性价比提升

随着大模型推理需求的持续攀升，AS3000G7 的推出恰逢其时。其通过“以存代算”的技术创新突破 KV Cache 重计算瓶颈，为 AI 规模化应用筑牢存储根基。未来，随着多模态与实时交互场景的普及以及存储与计算的协同优化，KV Cache“以存代算”将成为降本增效的核心竞争力，为智能时代的推理存储构建新基准。

本文链接：http://www.28at.com/showinfo-26-174465-0.html引领大模型推理效率革命！浪潮存储领先发布推理加速存储 AS3000G7

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： 80 亿美元，甲骨文创始人埃里森之子收购派拉蒙获批准

下一篇：华为新款鸿蒙旗舰平板电脑正式开售：预装 HarmonyOS 5，鸿蒙电脑应用登陆平板

标签：

热门焦点

7月安卓手机好评榜：三星S23Ultra好评率第一

性能榜和性价比榜之后，我们来看最后的安卓手机好评榜，数据来源安兔兔评测，收集时间2023年7月1日至7月31日，仅限国内市场。第一名：三星Galaxy S23 Ultra好评率：95.71%在即将迎来新
2023 年的 Node.js 生态系统

随着技术的不断演进和创新，Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统，可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
Flowable工作流引擎的科普与实践

一.引言当我们在日常工作和业务中需要进行各种审批流程时，可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
微信语音大揭秘：为什么禁止转发？

大家好，我是你们的小米。今天，我要和大家聊一个有趣的话题：为什么微信语音不可以转发？这是一个我们经常在日常使用中遇到的问题，也是一个让很多人好奇的问题。让我们一起来揭开这
使用LLM插件从命令行访问Llama 2

最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展：Llama 2可免费用于研究和商业用途。(几小时前，swyy发现它已从LLaMA 2更名为Lla
中国家电海外掘金正当时｜出海专题

作者｜吴南南编辑｜胡展嘉运营｜陈佳慧出品｜零态LT（ID：LingTai_LT）2023年，出海市场战况空前，中国创业者在海外纷纷摩拳擦掌，以期能够把中国的商业模式、创业理念、战略打法输出海外，他们依
OPPO K11搭载长寿版100W超级闪充：26分钟充满100%

据此前官方宣布，OPPO将于7月25日也就是今天下午14:30举办新品发布会，届时全新的OPPO K11将正式与大家见面，将主打旗舰影像，和同档位竞品相比，其最大的卖
滴滴违法违规被罚80.26亿共存在16项违法事实

滴滴违法违规被罚80.26亿存在16项违法事实开始于2121年7月，历经一年时间，网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信
电博会与软博会实现"线下+云端"的双线融合

在本次“电博会”与“软博会”双展会利好条件的加持下，既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用，继而推动区域经济良性发展；又可以聚

引领大模型推理效率革命！浪潮存储领先发布推理加速存储 AS3000G7

7月安卓手机好评榜：三星S23Ultra好评率第一

2023 年的 Node.js 生态系统

Flowable工作流引擎的科普与实践

微信语音大揭秘：为什么禁止转发？

使用LLM插件从命令行访问Llama 2

中国家电海外掘金正当时｜出海专题

OPPO K11搭载长寿版100W超级闪充：26分钟充满100%

滴滴违法违规被罚80.26亿共存在16项违法事实

电博会与软博会实现"线下+云端"的双线融合

最新推荐

猜你喜欢

热门推荐

相关资讯