本实用指南将帮助用户了解,如何配置个人电脑才能更有效地使用生成式 AI 大语言模型
生成式人工智能 (GenAI) 彻底改变了计算世界,戴尔科技的用户都开始考虑借助大语言模型 (LLM) 去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的 AI 基础设施产品组合,从云到客户端设备一应俱全 [1], 因此能够为用户提供满足其一切 AI 需求的端到端 AI 解决方案和服务。戴尔科技还提供专为助力 AI 工作负载而设计的硬件解决方案,包括工作站、高性能计算服务器、数据存储、云原生软件定义基础设施、网络交换机、数据保护、HCI 和各种服务。但用户所面临的最大问题之一是: 如何确定一台 PC 能够与特定的 LLM 有效配合。戴尔科技将尝试解答这个问题。
首先应该掌握一些关于如何帮助 PC 处理 LLM 的基础知识。虽然 AI 例程可以在 CPU 或被称为 NPU 的新型专用 AI 回路中进行处理,但目前的主流仍然是在 PC 中使用 NVIDIA RTX GPU 进行 AI 处理,该 GPU 带有被称为“张量核心”(Tensor Core) 的专用回路。RTX 张量核心专门用于实现混合精度数学计算,而这是 AI 处理的核心。但进行数学运算只是需要考虑的因素之一,鉴于 LLM 潜在的内存占用量,还需要额外考虑可用的内存空间。要在 GPU 中最大程度地发挥 AI 性能,就必须将 LLM 处理加入到 GPU VRAM。NVIDIA 的 GPU 产品线在各种移动和固定工作站产品中都可以扩展,用户可以通过所提供的张量核心数量和 GPU VRAM 选项来轻松调整系统规模。请注意,某些固定工作站可以搭载多颗 GPU 来进一步扩大容量。
市场上出现的 LLM 数量和种类越来越多,但在确定硬件需求时,最需要考虑的因素之一是所选 LLM 的参数规模。以 Meta AI 的 Llama-2 LLM 为例,该模型有 70 亿、130 亿和 700 亿这三种不同的参数规模。一般来说,参数规模越大,LLM 的准确性就越高,在一般知识应用中的适用性也就越强。
无论用户的目标是将基础模型原封不动地用于推理,还是根据具体的用例和数据进行调整,他们都需要了解 LLM 对机器的要求以及如何最好地管理模型。如果能够利用用户专有的数据开发和训练出针对特定用例的模型,那么用户的 AI 项目就能为其带来最大的创新和回报。在使用 LLM 开发新功能和应用时,参数规模最大的模型可能会对机器性能提出极高的要求,因此数据科学家们开发出了一些办法来帮助降低处理开销和管理 LLM 输出准确性。
量化就是其中的一种办法。该技术通过修改 LLM 内部参数 (即权重) 的数学精度来缩小 LLM 的规模。降低位精度会对 LLM 产生两方面的影响: 一是减少处理所占用的空间和对内存的需求,二是影响 LLM 的输出准确性。量化可以看作是 JPEG 图像压缩,虽然压缩得越多,创建出的图像效率就越高,但在某些用例中可能会使图像变得模糊不清。
在实际应用中,如果用户想要运行量化为 4 位精度的 Llama-2 模型,可以考虑戴尔 Precision 3000 和 5000 系列的多款移动工作站。
戴尔科技全新的 3000 和 5000 系列移动工作站集成了 CPU,NPU,GPU 多处理器组合,能够优化 100 多款应用中的 AI 性能,使其运行更快、能效更高。例如,它们可支持全新的协作体验,如 AI 驱动的视频会议,提供背景模糊、面部取景和视线纠正等功能。NPU 能有效地卸载 CPU 或 GPU 上的任务,使功耗降低高达 40%。这意味着电池续航时间更长,用户无需频繁充电即可持续工作。此外,新款 CPU 还配备了速度更快的集成显卡,为更多媒体密集型 AI 工作负载提供卓越性能。CPU、NPU 和 GPU 协同工作,共同打造灵活、高性能且节能的 AI 引擎,为用户带来绝佳体验。
此外,全新戴尔 Precision 3490 和 3590 移动工作站最高可搭载 NVIDIA RTX 500 Ada 图形处理器,提升专业用户的工作效率。Precision 3591 则专注于设计与创作领域,轻松应对入门级 2D 和 3D CAD 应用。而 Precision 5000 系列移动工作站将创意应用的性能提升到了新的高度,Precision 5690 凭借其小巧的 16 英寸机身,为用户带来出色的创意应用体验。它具备广阔的视野、出色的便携性和强大的应用性能,最高可配备 NVIDIA RTX 5000 图形处理器。同时,机身小巧但强大功能的 Precision 5490 作为一款 14 英寸超便携设备,在性能和体验方面也毫不逊色。
在更高精度 (BF16) 运行会增加对内存的需求,但戴尔科技的解决方案可以在任何精度上满足任何规模的 LLM 需求。戴尔 Precision 7960 塔式工作站可支持多达四个 NVIDIA 高性能 GPU, 其 AI 处理能力比上代产品高出 80% 且每个 GPU 的 VRAM 高达 48GB, 而 VRAM 是处理 GenAI 大语言模型最关键的配置之一。
那么如何解决输出准确性所受到的影响? 另一种被称为微调的技术可以通过在特定数据上重新训练 LLM 的参数子集来提高准确性,进而提高特定用例中的输出准确性。微调会调整某些已训练参数的权重,能够加快训练过程并提高输出准确性。通过将微调与量化相结合,就可以产生针对特定应用的小语言模型,这些模型非常适合部署到对 AI 处理能力要求较低的各种设备上。同样,如果开发人员想要对 LLM 进行微调,也可以放心地将 Precision 工作站作为构建 GenAI 解决方案过程中的沙盒。
在使用 LLM 时这些不同技术不会相互排斥。把它们结合在一起使用往往会带来更高的运行效率和准确性。
总之,LLM 的规模以及哪些技术能够为有效使用 LLM 所需的计算系统配置提供最佳参考都是关键的决定因素。戴尔科技坚信无论用户在其 AI 旅程中想要朝哪个方向发展,戴尔科技的台式机、数据中心等解决方案都将为其提供助力。
戴尔科技集团
戴尔科技集团致力于帮助企业和个人构建数字化未来,改进他们的工作、生活和娱乐方式,为客户提供面向数据时代全面和创新的产品、技术、解决方案及服务组合。
[1]基于戴尔科技集团的内部分析,2023 年 8 月。
本文链接:http://www.28at.com/showinfo-26-80919-0.html戴尔 Precision 工作站:助力客户更有效地使用 GenAI 大语言模型
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com