IT评测·应用市场-qidao123.com技术社区

标题: 深度学习500问——Chapter15:异构计算,GPU和框架选型(1) [打印本页]

作者: 熊熊出没    时间: 2024-9-27 12:50
标题: 深度学习500问——Chapter15:异构计算,GPU和框架选型(1)
文章目录

   
  异构计算,GPU和框架选型指南
  15.1 什么是异构计算
  15.2 什么是GPU
  15.3 GPU架构简介
  15.3.1 怎样通俗理解GPU的架构
  15.3.2 CUDA的核心是什么
  15.3.3 为什么要利用GPU
  
异构计算,GPU和框架选型指南

深度学习训练和推理的过程中,会涉及到大量的向量(vector),矩阵(matrix)和张量(tensor)操作,通常必要大量的浮点计算,包括高精度(在训练的时候)和低精度(在推理和部署的时候)。
GPU,作为一种通用可编程的加速器,最初计划是用来进行图形处置惩罚和渲染功能,但是从2007年开始,英伟达(NVIDIA)公司提出了第一个可编程通用计算平台(GPU),同时提出了CUDA框架,从此开启了GPU用于通用计算的新纪元。今后,不计其数的科研人员和开发者,对各种差别范例的算法用CUDA进行(部分)改写,从而达到几倍到数百倍的加速效果。尤其是在机器学习,特别是深度学习的浪潮来临后,GPU加速已经是各类工具实现的根本底层架构之一。
本章里,会简朴介绍GPU的根本架构,性能指标,框架选择等等和深度学习干系的内容。
15.1 什么是异构计算

异构计算是基于一个更加朴素的概念,“异构现象”,也就是差别计算平台之间,由于硬件结构(包括计算核心和内存),指令集和底层软件实现等方面的差别而有着差别的特性。异构计算就是利用联合了两个或者多个差别的计算平台,并进行协同运算。
好比,比力常见的,在深度学习和机器学习中已经比力成熟的架构:CPU和GPU的异构计算;别的还有比力新的Google推出的协处置惩罚器(TPU),根据目标而定制的ASIC,可编程的FPGA等也都是现在在异构计算中利用比力多的协处置惩罚器。而本章会着重介绍和深度学习共同繁荣的图形加算算器,也就是常说的GPU。
15.2 什么是GPU

GPU,就如名字所包含的内容,本来开发的目标是为了进行计算机图形渲染,而淘汰对于CPU的负载。由于图像的原始特性,也就是像素间的独立性,以是GPU在计划的时候就遵从了从“单指令流多数据流(SIMD)”架构,使得同一个指令(好比图像的某种变更),可以同时在多一个像素点上进行计算,从而得到比力大的吞吐量,才能使得计算机可以实时渲染比力复杂的2D/3D场景。
在最初的应用场景里,GPU并不是作为一种通用计算平台实现的,直到2007年左右,一家巨大的公司将GPU带到通用计算的天下里,使得其可以在相对比力友好的编程情况(CUDA/OpenCL)里加速通用程序成了可能。从此之后,GPU通用计算,也就是GPU就成了学界和工业界都频繁利用的技术,在深度学习爆发的年代里,GPU成了推动这股浪潮非常重要的力量。
15.3 GPU架构简介

GPU,图形显示芯片作为差别于CPU的计划逻辑和应用场景,有着非常差别的架构,本部分将简朴介绍GPU毕竟是怎样架构,其中的计算核心有哪些特性。
15.3.1 怎样通俗理解GPU的架构

首先,下图简朴地展示了几个GPU差别于CPU的特性:








15.3.2 CUDA的核心是什么

上面提到在一个GPU芯片里,会有几千个CUDA核心,被分布在多个流处置惩罚单位(SM)中,好比上面提到早期的GTX980中的16个SM中各包含了128个CUDA核心。
如下图所示,作为GPU架构中的最小单位,实在它的计划和CPU有着非常类似的结构,其中包括了一个浮点运算单位和整型运算单位,和控制单位。同一个流处置惩罚器中,全部的CUDA核心将同步执行同一个指令,但是作用于差别的数据点上。

一般来说,更加多的CUDA核心意味着有更多的并行执行单位,以是也就可以片面地以为是有更加高的性能。但是,实在这个也是取决于很多方面,最重要的是算法在并行实现的时候有没有高效地调度和内存的利用优化。
在现在我们利用的大部分GPU加速的深度学习框架里,包括Tensorflow、PyTorch等都是依赖于底层的GPU的矩阵加速代码的实现。为此Nvidia公司也是制定和实现了统一的接口,好比CUDNN,方便上层框架更好的利用GPU的性能。
15.3.3 为什么要利用GPU

对于并行计算来说,可以非常粗略地分为:

GPU整体的架构而言,某种意义上是同时支持以上两种并行模式。在同一个流处置惩罚器中,采用了“单一指令并行数据流的模式”,而在多个流处置惩罚器中,同一时间可以派发差别的指令。从这一点出发,GPU芯片算是一个非常灵活的架构。一个芯片中,流处置惩罚器的个数和其中包含的CUDA核心的数目也是一种面向应用计划时候找到的一个均衡点。
基于深度学习中大部分的操作的自然并行性(大量的矩阵操作),GPU在当下还是一种非常适合的计算平台。一个非常范例的例子就是常见的矩阵相乘(如下图),要计算
,通过并行计算,X和Y中的行向量和列向量的逐元素相乘就可以同时进行,只要得到效果后再进行累加,并且累计的过程中也是可以进行并行化,使得效率有非常大的提高。
Nvidia也是制定和开发了一套底层类库,CUBlas方便开发者。我们熟悉的几大框架(eg. Tensorflow、Pytorch等)也是遵循和利用了这些并行类库,以是才使得训练和部署性能有了非常多的提高。



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4