当前位置:首页 > 科技  > 芯片

S-LoRA技术:减轻企业LLM部署负担

来源: 责编: 时间:2023-12-06 09:20:13 196观看
导读随着人工智能的快速发展,大型语言模型(LLM)在商业领域的应用越来越广泛。然而,传统的微调方法往往需要耗费大量的运算资源和成本,这对于资源有限的企业来说是一个巨大的阻碍。为了解决这个问题,史丹佛大学和加州大学柏克莱

随着人工智能的快速发展,大型语言模型(LLM)在商业领域的应用越来越广泛。然而,传统的微调方法往往需要耗费大量的运算资源和成本,这对于资源有限的企业来说是一个巨大的阻碍。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

为了解决这个问题,史丹佛大学和加州大学柏克莱分校(UC Berkeley)的研究团队共同开发了一种名为S-LoRA的创新技术,该技术可以大幅降低微调LLM的成本,让企业能够在单一图形处理单元(GPU)上运行数百个甚至数千个模型。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

传统上,微调LLM需要使用新的范例,重新训练预训练模型并调整所有参数。然而,LLM通常拥有数十亿个参数,因此需要大量的运算资源。S-LoRA技术通过参数高效微调法(PEFT)解决了这个问题。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

LoRA是一种由微软开发的低端适应款模型,它可以降低可训练参数的数量,同时维持准确度,从而大幅减少定制化模型所需的存储器和运算资源。S-LoRA则拥有动态存储器管理系统,可以在主存储器(RAM)和GPU之间灵活切换LoRA适配器。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

S-LoRA系统还引入了“统一分页”(Unified Paging),让服务器能够处理数百个甚至数千个批量的查询,而不会出现存储器碎片化问题。此外,S-LoRA还整合了“张量平行系统”(Tensor parallelism)。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

这些特点使得S-LoRA能够在单一GPU或多个GPU上服务许多LoRA适配器。最显著的成就是,S-LoRA能够同时服务2,000个适配器。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

目前,S-LoRA的程序码已经公布在GitHub上。研究人员计划将其整合到当今流行的LLM服务架构中,这样企业就可以轻松地将S-LoRA融入自家应用程序,以最小的成本享受定制化的LLM驱动服务。4RD28资讯网——每日最新资讯28at.com


4RD28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-27-38475-0.htmlS-LoRA技术:减轻企业LLM部署负担

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 索尼计划为PlayStation Portal增加云端串流功能

下一篇: 罗姆与Quanmatic公司利用量子技术优化制造工序并完成验证

标签:
  • 热门焦点
Top