CUDA入门与深度神经网络加速课程介绍:
CUDA是一种并行计算平台和编程模型,随着深度学习的兴起,CUDA被广大AI从业者熟知.究其原因主要在于深度学习算法商业化落地时都需要进行加速,尤其是在安防,无人驾驶环境感知等对算法速度要求较高的场景中.因此CUDA编程已成为当下人工智能工程师的重要技能,比如cuDNN及TensorRT已被广泛应用于科研及工程领域.
PS:此门为加密课
适合人群:
人工智能领域的算法或开发工程师,希望学习并行计算系统的科研工作者及工程师
课程目录:
——/01.人工智能/SL-CUDA入门与深度神经网络加速/ ├──00-课程小序章 | └──1-CUDA入门与深度神经网络加速 开课仪式.pdf 512.19kb ├──第1章 CUDA C编程及GPU基本知识 | ├──第1节 GPU基本架构及特点 | | └──1.CPU与GPU的基础知识.vep 41.27M | ├──第2节 CUDA C编程基本知识 | | └──2.CUDA编程的重要概念.vep 78.38M | ├──第3节 并行计算向量相加 | | └──3.并行计算向量相加.vep 125.15M | ├──第4节 实践 | | ├──4.实践向量相加.vep 37.28M | | ├──【代码】向量相加的CUDA代码.zip.zip 233.27kb | ├──第5节 作业练习 | | └──【作业】.doc 215.50kb | └──3-CUDA C编程及GPU基本知识.pdf 826.24kb ├──第2章 CUDA C编程:矩阵乘法 | ├──第1节 为什么矩阵乘法适合GPU实现 | | └──5.为什么矩阵乘法适合GPU实现.vep 26.52M | ├──第2节 矩阵乘法的GPU基础实现 | | └──6.矩阵算法的GPU实现.vep 42.55M | ├──第3节 矩阵乘法GPU进阶实现 | | └──7.矩阵乘法的GPU进阶实现.vep 113.63M | ├──第4节 代码实践 | | ├──【代码】L2 MatrixMultiple.zip 16.98kb | | └──8.为什么矩阵乘法适合GPU实现.vep 39.51M | ├──第5节 作业 | | └──9.作业题目.vep 9.62M | └──【课件】矩阵乘法(新).pdf 669.64kb ├──第3章 cuda stream 和 Event | ├──第1节 CUDA Stream介绍 | | └──10.CUDA Stream介绍.vep 80.78M | ├──第2节 CUDA Stream为什么有效 | | └──11.CUDA Stream为什么有效.vep 50.13M | ├──第3节 CUDA Stream 默认流的表现 | | ├──12.CUDA Stream默认流的表现.vep 33.77M | ├──第4节 CUDA Event | | └──13.CUDA Event.vep 10.47M | ├──第5节 CUDA 同步操作 | | ├──itdjs下载必看 | | └──14.CUDA 同步操作.vep 30.00M | ├──第6节 NVVP工具演示 | | └──15.NVVP.vep 32.71M | └──【课件】CUDA C编程:cuda stream and envet.pdf 1.43M ├──第4章 cuDNN与cuBLAS | ├──第1节 课程回顾 | | └──16.课程回顾.vep 26.08M | ├──第2节 cuBLAS | | └──17.cuBLAS.vep 133.22M | ├──第3节 cuDNN | | └──18.cuDNN.vep 98.56M | ├──第4节 实践 | | ├──19.实践卷积神经网络.vep 47.28M | | └──【代码】L4 cuDNN.zip 208.62kb | └──【课件】CUDA C编程:卷积实现与cudnn、cublas.pdf 1009.27kb ├──第5章 TensorRT介绍 | ├──第1节 TensorRT是什么 | | └──20.TensorRT是什么.vep 23.65M | ├──第2节 TensorRT整体工作流程与优化策略 | | └──21.TensorRT优化策略.vep 23.67M | ├──第3节 TensorRT的组成与基本使用流程 | | └──22.TensorRT使用的基本流程.vep 75.15M | ├──第4节 TensorRT demo:SampleMNIST | | └──23.demo.vep 30.92M | ├──第5节 TensorRT进阶 | | └──24.TensorRT进阶.vep 84.04M | └──【课件】TensorRT介绍 .pdf 2.40M ├──第6章 TensorRT plugin用法 | ├──第1节 Plugin介绍 | | └──25.plugin介绍.vep 19.07M | ├──第2节 Static Shape Plugin | | └──26.Dynamic Shape Plugin API & Demo.vep 37.12M | ├──第3节 Dynamic Shape Plugin | | └──27.Dynamic Shape Plugin API & Demo.vep 58.00M | ├──第4节 PluginCreator注册 | | └──28.PluginCreator注册.vep 21.88M | ├──第5节 延伸:TensorRT如何debug | | └──29.Debug Plugin经验.vep 35.75M | └──【课件】TensorRT plugin用法.pdf 2.18M ├──第7章 TensorRT加速 | ├──第1节 TRT FP16优化 | | └──30.TRT FP16优化.vep 14.73M | ├──第2节 TRT INT8量化算法 | | ├──31,TRT INT8量化算法(上).vep 133.54M | | └──32.TensorRT INT8量化算法(下).vep 100.03M | ├──第3节 TRT大规模上线经验 | | └──33.TRT大规模上线.vep 73.85M | └──【课件】TensorRT INT8量化加速.pdf 2.72M