因此 CUDA 和英伟达硬件架构有以下对应关系,从软件侧看到的是线程的执行,对应于硬件上的 CUDA Core,每个线程对应于 CUDA Core,软件方面线程数目是超配的,硬件上 CUDA Core 是固定命量的。Block 线程块只在一个 SM 上通过 Warp 举行调度,一旦在 SM 上调用了 Block 线程块,就会不停保存到执行完 kernel,SM 可以同时生存多个 Block 线程块,多个 SM 组成的 TPC 和 GPC 硬件实现了 GPU 并行计算。
AISystem/02Hardware/03GPUBase at main · chenzomi12/AISystem (github.com)github.com/chenzomi12/AISystem/tree/main/02Hardware/03GPUBase
特别分析:本文是对开源项目AISystem的内容贡献
@ZOMI酱