当前位置：首页 > 科技 > 软件

厉害，美国人又搞了一个垄断的生态系统

来源：责编：时间：2024-01-22 17:25:34 407观看

导读去年AIGC大火，程序员都把注意力放在了最上层，而忽略了提供算力的最底层：GPU。不过这也正常，就像很少人直接针对CPU编程一样，直接针对GPU编程的人也不多。但是了解一下GPU编程，绝对大有好处。今天先聊聊GPU编程，然后再聊聊一

去年AIGC大火，程序员都把注意力放在了最上层，而忽略了提供算力的最底层：GPU。

不过这也正常，就像很少人直接针对CPU编程一样，直接针对GPU编程的人也不多。

但是了解一下GPU编程，绝对大有好处。

今天先聊聊GPU编程，然后再聊聊一个CUDA这个新的生态系统，对编程细节不感兴趣的可以直接拉到最后。

对了，文末还有免费送书的福利。

CPU vs GPU

图片

CPU的设计目标是“尽可能地降低延时”

(1) 强大的ALU（算术逻辑单元），可以在很少的时钟周期内完成算术运算。

(2) 巨大的Cache：加快指令和数据的存取速度

(3) 复杂的逻辑控制：当程序员有多个分支，它可以通过分支预测来降低延时。

GPU的目标是：“尽可能地实现大吞吐量”

(1) ALU 简单，但是超级多

(2) Cache很小

(3) 逻辑控制简单。

如果把GPU的单个核心比作小学生，那一个CPU的核心就是老教授。

如果要做微积分，几千个小学生也比如上老教授。

但是，如果只是100以内的加减法，几千个小学生同时做（并行计算），那效率肯定要比老教授高。

老教授处理复杂任务的能力是碾压小学生的，但是对于没有那么复杂的任务，还是顶不住人多。

把串行改成并行

我们用一个例子来展示一下：

int a[] = {1,2,3,4,5,6,8,9,10};int b[] = {11,12,13,14,15,16,17,18,19,20};int c[10];int main() {    int N = 10;  // Number of elements    for (int i = 0; i < N; i++) {        c[i] = a[i] + b[i];    }    return 0;}

这段简单的代码大家都能看懂，CPU在执行时会做一个循环，然后把两个数组对应的元素进行相加，结果存到数组c中。

由于是顺序处理的，如果数组非常大，就会比较耗时。

如何把它改成并行计算呢？

数组中有10个元素，我们可以创建10个线程，把每个线程扔到一个GPU核心中去运行。

图片

程序员该怎么写代码，来表达这个想法呢？

CUDA

英伟达的CUDA是一个并行计算平台，可以让程序员可以通过C、C++等语言在GPU上并行执行代码。

图片

在CUDA中，把CPU所在的部分叫做Host，GPU称为Device，它们之间通过总线相连。

图片

对于之前的例子，CUDA代码是这样的：

__global__ void vectorAdd(int* a, int* b, int* c){    int i = threadIdx.x;    c[i] = a[i] + b[i];    return;}

估计大部分小伙伴都能猜出来这段代码的含义。

a,b分别是两个要想加的数组，c用来保存结果。

__global__应该是个指示符，表示这段代码是个“内核函数”，要被放到GPU上来执行。

threadIdx是个什么东西？

似乎是个线程的索引，找到这个线程的index以后，取出a,b中index对应的值，加起来放到c中。例如index是0，那就取出a[0],b[0]加起来，放到c[0]中，这就实现了我们之前的想法。

值得注意的是，这里的a,b,c不是Host的内存，而是Device（GPU）的内存，所以我们得把原始的数据复制到GPU中。

1. 先在GPU中分配内存

int* cudaA = 0;int* cudaB = 0;int* cudaC = 0;// 使用cudaMalloc在GPU中分配内存cudaMalloc(&cudaA,sizeof(a));cudaMalloc(&cudaB,sizeof(b));cudaMalloc(&cudaC,sizeof(c));

2.然后把原始数据从Host复制到Device(即GPU)中

//注意第4个参数，是从Host 到 DevicecudaMemcpy(cudaA, a, sizeof(a), cudaMemcpyHostToDevice);cudaMemcpy(cudaB, b, sizeof(b), cudaMemcpyHostToDevice);

3. 调用内核函数

vectorAdd <<<1, sizeof(a) / sizeof(a[0])>>> (cudaA, cudaB, cudaC);

调用vectorAdd的时候，被<<< >>>包围起来的部分是配置参数，这里指定了一组10个线程(数组长度为10)。

这10个线程会被放到10个GPU核心中去执行，他们的索引是从0到9。

所以在vectorAdd函数中可以通过threadIdx.x引用到当前线程的索引，例如9 ，那就知道当前线程要做的事情：把a[9]和b[9]加起来，放到c[9]中。

这样10个GPU核心就是同时执行10次加法，速度飞快。

4. 把结果复制回Host

// 注意第4个参数，是从Device 到 HostcudaMemcpy(c, cudaC, sizeof(c), cudaMemcpyDeviceToHost);

小伙伴们肯定已经意识到了，这里边有个核心的概念：Thread（线程），每个线程都会被映射到一个GPU核心去执行。

图片

多个Thread可以组成一个块（Block），被映射到多个核心

图片

多个Block又形成一个Grid，被映射到整个CPU

图片

在启动内核函数的时候，需要指定配置参数，它的格式是：

kenerl_function<<<grid_size,block_size>>>

就是告诉CUDA，这次运行的grid的size和block的size，在我们的例子中vectorAdd<<<1,10>>>表示的意思是：Grid中只有一个block，这个block中有10个Thread。

Grid和Block都可以是1维，2维，3维的，这里就不详细描述了。

CUDA生态

前面介绍的是CUDA的冰山一角，希望小伙伴们对CUDA，对GPU编程有个初步认识。

大家也肯定意识到了上面很多cuda开头的各种函数，上层的应用一旦开始使用它们，基本上就和英伟达的CUDA生态绑定了。

图片

在CUDA发展过程中，一个斯坦福的博士生起到了关键作用。

1999年，Nvidia发布了一块叫GeForce的显卡，它的图形处理性能非常出色，非常适合《雷神之锤》游戏。

这时候，斯坦福博士Ian Buck出场了，他疯狂地将32块GeForce显卡连接在一起，再加上8台投影仪，实现了8K分辨率的《雷神之锤》。

玩归玩，他还研究了一下GeForce显卡自带的一个非常原始的编程工具，随后在DARPA的资助下，实现了在GPU上进行通用并行编程。

随后他便加入了英伟达，负责英伟达超级计算包（就是CUDA）的开发。

英伟达的黄教主认为超级计算在未来必将平民化，英伟达要通过CUDA成为领先者。

CUDA的软硬件开发耗资巨大，当2006年正式推出的时候，科技界反应冷淡，认为英伟达瞄准了一个小众的市场，数十亿美元投资有可能打水漂。

英伟达为了推销CUDA，在金融、石油勘探、分子生物等方面孜孜不倦地寻找客户，但都没有起色。

CUDA发展艰难，没有关键应用，缺少重要客户支持。

2008年底，英伟达的股票下跌了70%。

转折点出现在2012年，Hinton团队仅用4个GTX580显卡，利用CUDA技术进行训练出的神经网络，获得了ImageNet比赛的第一名！

机器学习，深度学习彻底被引爆了。

黄仁勋的“赌注”成功了，他在一封邮件中说道：....我们不在是一家GPU公司了，我们是一家AI公司.....

英伟达开始和Google,Facebook等公司合作，推广开源AI框架TensorFlow、PyTorch，当然，它们都构建在CUDA之上。

图片

CUDA彻底统治了AI市场，随后CUDA又发力机器人，自动驾驶等领域。

2023年，以ChatGPT为代表的大模型爆火，英伟达的GPU供不应求，被抢爆了，GPU和CUDA一起攻城掠地，无人可挡。

经过17年的发展，继Windows+Intel , Android + ARM之后，又一个庞大的生态形成了。

这个生态的厉害之处在于：它牢牢占据了软件和硬件的结合之处，CUDA的设计基本就是英伟达硬件形态的抽象。

如果其他GPU厂商想兼容CUDA，就得跟随英伟达的硬件路线，亦步亦趋，相当难受。

如果想重建一套新的生态和API，就会遇到那个老大难问题：软件生态。

英伟达开发了世界上性能最强的GPU，又有着CUDA这个宽广的护城河，照理说，国内厂商是没啥办法的，不用也得用。

但是美国政府送上了神助攻，继A100及H100，连中国专供的“阉割版”A800和H800也不让卖了，禁令甚至波及到了消费级的4090。

原来大家都用英伟达，根本看不上国内产品，现在好了，不得不选国内GPU，比如华为昇腾。

虽然性能差一些，编程接口难用一些，但有总比没有强。

去年11月，百度已经下令将“文心一言”使用的芯片，改向华为芯片，并且为200台服务器购买了1600颗华为昇腾910B AI芯片。

360也表示，采购了华为1,000片左右的AI芯片，和华为合作将AI框架移植到华为昇腾910B的AI芯片。

在实际应用中不断反馈、改善，国产的人工智能芯片肯定会越来越好。

这么发展下去，国内肯定会建立起自己的GPU生态，也会有自己的CUDA。

本文链接：http://www.28at.com/showinfo-26-66202-0.html厉害，美国人又搞了一个垄断的生态系统

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：在实际项目中如何评估数据库的实际需求？

下一篇： CSS 滚动驱动动画实现圆弧滚动条

标签：

热门焦点

官方承诺：K60至尊版将会首批升级MIUI 15

全新的MIUI 15今天也有了消息，在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时，Redmi给出了官方承诺，K60至尊重大更新首批升级，会首批推送MIUI 15。也就是说虽然
太卷！Redmi MAX 100英寸电视便宜了：12999元买Redmi史上最大屏

8月5日消息，从小米商城了解到，Redmi MAX 100英寸巨屏电视日前迎来官方优惠，到手价12999元，比发布价便宜了7000元，在大屏电视市场开卷。据了解，Redmi MAX 100
掘力计划第 20 期：Flutter 混合开发的混乱之治

在掘力计划系列活动第20场，《Flutter 开发实战详解》作者，掘金优秀作者，Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
之家push系统迭代之路

前言在这个信息爆炸的互联网时代，能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大，传统的靠"主动拉"获取信息的方式已不能满足用
三言两语说透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术，可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
品牌洞察丨服务本地，美团直播成效几何？

来源：17PR7月11日，美团App首页推荐位出现“美团直播”的固定入口。在直播聚合页面，外卖“神枪手”直播间、美团旅行直播间、美团买菜直播间等均已上线，同时
iQOO Neo8 Pro即将开售：到手价3099元起安卓性能最强旗舰

5月23日，iQOO如期举行了新品发布会，全新的iQOO Neo8系列也正式与大家见面，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更
联想小新Pad Pro 12.6将要推出，搭载高通骁龙 870 处理器

联想小新Pad Pro 12.6将于秋季新品会上推出，官方按照惯例直接在发布会前给出了机型的所有参数。联想小新 Pad Pro 12.6 将搭载高通骁龙 870 处理器，重量为 5
北京：科技教育体验基地开始登记

　　北京“科技馆之城”科技教育体验基地登记和认证工作日前启动。首批北京科技教育体验基地拟于2023年全国科普日期间挂牌，后续还将开展常态化登记。　　北京科技教育体验基

厉害，美国人又搞了一个垄断的生态系统

CPU vs GPU

把串行改成并行

CUDA

4. 把结果复制回Host

CUDA生态

官方承诺：K60至尊版将会首批升级MIUI 15

太卷！Redmi MAX 100英寸电视便宜了：12999元买Redmi史上最大屏

掘力计划第 20 期：Flutter 混合开发的混乱之治

之家push系统迭代之路

三言两语说透柯里化和反柯里化

品牌洞察丨服务本地，美团直播成效几何？

iQOO Neo8 Pro即将开售：到手价3099元起安卓性能最强旗舰

联想小新Pad Pro 12.6将要推出，搭载高通骁龙 870 处理器

北京：科技教育体验基地开始登记

最新推荐

猜你喜欢

热门推荐

相关资讯