当前位置:首页 > 科技  > 软件

引领大模型推理效率革命!浪潮存储领先发布推理加速存储 AS3000G7

来源: 责编: 时间:2025-07-31 09:55:49 161观看
导读 2025 年 7 月 25 日,浪潮存储营销总监张业兴出席中国信息通信研究院主办的 2025(第二届)产融合作大会。会上,张业兴发表题为《融存智用运筹新数据 —— 浪潮存储金融解决方案和实践》的主题演讲,并代表浪潮存储领

2025 年 7 月 25 日,浪潮存储营销总监张业兴出席中国信息通信研究院主办的 2025(第二届)产融合作大会。会上,张业兴发表题为《融存智用运筹新数据 —— 浪潮存储金融解决方案和实践》的主题演讲,并代表浪潮存储领先发布推理加速存储 AS3000G7。该产品凭借“以存代算”的技术创新,有效破解 KV Cache 重复计算带来的算力和时延损耗难题,为大模型推理场景提供突破性解决方案,加速推动大模型在金融、科研等领域的规模化落地。26u28资讯网——每日最新资讯28at.com

26u28资讯网——每日最新资讯28at.com

大模型推理效能瓶颈:吞吐量和时延26u28资讯网——每日最新资讯28at.com

当前人工智能大模型的应用已渗透千行百业,既推动着产业效能的跨越式提升,也深刻重构着生产生活的底层逻辑,成为驱动数字经济发展与社会智能化升级的核心力量。随着大模型应用的普及和相关技术的发展,各行各业对大模型应用的关注点逐渐从大模型的训练转到大模型的推理。据 IDC 数据显示,智能算力规模在未来 5 年增长 1.7 倍,用于推理的工作负载将从 2023 年的 40% 上升到 2027 年的 70% 以上。因此,大模型推理将会成为未来大模型应用的焦点。然而,当前大模型推理仍然需要借助 GPU 服务器来实现,而 GPU 服务器,也是整个大模型落地中最昂贵的投资。因此,充分发挥 GPU 服务器的利用率来提升大模型推理效率是大模型的落地关键,推理效率的高低直接决定着大模型从“实验室”到“生产线”的落地速度。26u28资讯网——每日最新资讯28at.com

大模型推理效率面临两大核心瓶颈:吞吐量(Tokens / s)和时延。吞吐量是指系统在单位时间内能处理的 tokens 的数量,数值越高表明 LLM 服务资源利用率越高、系统成本越低。时延则是用户接收每个 token 的平均耗时,其中首字时延(TTFT)是长文本对话场景中“实时交互体验”的核心指标,直接影响用户体验。26u28资讯网——每日最新资讯28at.com

大模型的推理包含两个阶段,第一个阶段是预填充 (Prefilling) 阶段。Prefilling 阶段处理输入,构建初始上下文并缓存成 KV Cache (key-value 键值对),缓存在 GPU 的 HBM 显存里。第二个阶段是解码 (Decode) 阶段,解码阶段则利用 Prefilling 阶段生成的 KV Cache,迭代地生成输出 Token,最终给出推理答案。26u28资讯网——每日最新资讯28at.com

根据大数据统计分析,超过 76% 的对话都是多轮的,多轮对话会产生大量的 KV Cache,上一轮的对话产生的 KV Cache 也会作为下一轮推理的输入基础,为连续交互提供上下文支撑。但实际场景中,GPU HBM 显存容量存在明显限制,因此多轮对话中的 KV Cache 会被强制丢弃,在下一轮对话中需要消耗算力来重新计算。以 DeepSeek 70B 模型为例,其每 10 分钟产生的 KV Cache 高达 25TB,但每张 GPU HBM 显存只有几十 GB,因此,在服务完一个请求后,需清空显存以接纳新请求,KV Cache 被强制丢弃,在后续对话中,原本可复用的 KV Cache 需要重新计算。这种重复计算直接时延增加(首字响应变慢),同时造成 GPU 算力空转(重复执行相同计算),导致吞吐量下降,最终导致资源利用率降低。因此,高效管理 KV Cache 缓存成为提升推理效率的关键。26u28资讯网——每日最新资讯28at.com

存储产品托管 KV Cache,实现“以存代算”26u28资讯网——每日最新资讯28at.com

浪潮存储 AS3000G7 作为业内领先推理加速存储,可存储所有 KV Cache 及多轮对话结果。其创新架构通过将 KV Cache 从 GPU 写入本机内存,再经高速网络缓存至 AS3000G7,下轮对话时按需拉取缓存无需重新计算,彻底实现“以存代算”,显著节省算力消耗并提升资源利用率。26u28资讯网——每日最新资讯28at.com

26u28资讯网——每日最新资讯28at.com

作为业内领先推理加速存储产品,AS3000G7 以四大核心优势重塑推理效率:26u28资讯网——每日最新资讯28at.com

降低响应延迟:将历史 Token 缓存至 AS3000G7 存储层,下轮对话从 NVMe SSD 硬盘中拉取历史 token 的 KV Cache,减少 GPU 重复计算带来的资源消耗,TTFT 降低 90%;26u28资讯网——每日最新资讯28at.com

承载更多并发:TTFT 在 400ms 以内的前提下,系统可支持的吞吐量(Token / s)可达原方案 5 倍,单位 GPU 资源可承载更多推理请求;26u28资讯网——每日最新资讯28at.com

降低 GPU 功耗:TTFT 的降低与并发的提升,单 Token 平均功耗下降 60%,在承载同等规模 token 负载时,GPU 服务器整机功耗降低。26u28资讯网——每日最新资讯28at.com

生态兼容适配:广泛兼容国产与海外芯片的异构算力平台,深度适配 vLLM 框架下的 deepseek 等主流大模型,优化推理体验。26u28资讯网——每日最新资讯28at.com

在某头部客户联合测试中,采用 1 台 GPU 服务器搭配 1 台 AS3000G7 推理加速存储的组合方案实现:26u28资讯网——每日最新资讯28at.com

稳定支撑 500 + 并发对话,TTFT 降低 90%,响应速度大幅提升26u28资讯网——每日最新资讯28at.com

同硬件配置下吞吐量(Tokens / s)提升 5 倍,在不增加 GPU 资源的情况下,实现更高并发的推理请求26u28资讯网——每日最新资讯28at.com

单 token 功耗降低 70%,单位算力成本降低 60%,推理性价比提升26u28资讯网——每日最新资讯28at.com

26u28资讯网——每日最新资讯28at.com

随着大模型推理需求的持续攀升,AS3000G7 的推出恰逢其时。其通过“以存代算”的技术创新突破 KV Cache 重计算瓶颈,为 AI 规模化应用筑牢存储根基。未来,随着多模态与实时交互场景的普及以及存储与计算的协同优化,KV Cache“以存代算”将成为降本增效的核心竞争力,为智能时代的推理存储构建新基准。26u28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-174465-0.html引领大模型推理效率革命!浪潮存储领先发布推理加速存储 AS3000G7

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 80 亿美元,甲骨文创始人埃里森之子收购派拉蒙获批准

下一篇: 华为新款鸿蒙旗舰平板电脑正式开售:预装 HarmonyOS 5,鸿蒙电脑应用登陆平板

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 把LangChain跑起来的三个方法

    使用LangChain开发LLM应用时,需要机器进行GLM部署,好多同学第一步就被劝退了,那么如何绕过这个步骤先学习LLM模型的应用,对Langchain进行快速上手?本片讲解3个把LangChain跑起来
  • Flowable工作流引擎的科普与实践

    一.引言当我们在日常工作和业务中需要进行各种审批流程时,可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 在线图片编辑器,支持PSD解析、AI抠图等

    自从我上次分享一个人开发仿造稿定设计的图片编辑器到现在,不知不觉已过去一年时间了,期间我经历了裁员失业、面试找工作碰壁,寒冬下一直没有很好地履行计划.....这些就放在日
  • 深度探索 Elasticsearch 8.X:function_score 参数解读与实战案例分析

    在 Elasticsearch 中,function_score 可以让我们在查询的同时对搜索结果进行自定义评分。function_score 提供了一系列的参数和函数让我们可以根据需求灵活地进行设置。近期
  • 使用LLM插件从命令行访问Llama 2

    最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展:Llama 2可免费用于研究和商业用途。(几小时前,swyy发现它已从LLaMA 2更名为Lla
  • 三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

    2023年7月26日,三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。除此之外,Galaxy Tab S9系列平板电脑以及三星Galaxy Watch6系列智能手表也同期
  • 与兆芯合作 联想推出全新旗舰版笔记本电脑开天N7系列

    联想与兆芯合作推出全新联想旗舰版笔记本电脑开天 N7系列。这个系列采用兆芯KX-6640MA处理器平台,KX-6640MA 处理器是采用了陆家嘴架构,16nm 工艺,4 核 4 线
Top