課程目錄:CUDA培訓
        4401 人關注
        (78637/99817)
        課程大綱:

            CUDA培訓

         

         

         

        CUDA入門
        1. CUDA 簡介
        2. CUDA kernel函數,warp,線程組織
        3. 系統架構
        4. 內存映射
        5. CUDA三步式編程結構
        在CUDA-GDB中理解CUDA
        1. CUDA-GDB 基本用法
        2. 觀察GPU寄存器
        3. 觀察錯誤信息
        4. 從GPU上打印信息
        5. 試驗:編譯和調試向量乘法程序
        使用NSight調試CUDA程序
        1. NSight簡介,安裝和設置環境信息
        2. 在CUDA info窗口觀察計算狀態
        3. 試驗:編譯和調試矩陣向量乘法程序
        4. 試驗:使用Nsight調試CUDA程序
        使用CUDA profiler 優化CUDA程序
        1. 測量GPU時間,nvprof,命令行選項
        2. 分析熱點,采樣視圖
        3. 內存優化,共享內存
        4. 試驗:使用nvprof優化CUDA程序
        GPU深度學習的應用
        深度學習GPU解決方案:
        基于GPU的交互式深度學習訓練平臺:DIGITS;
        深度學習框架的GPU加速:TensorFlow,Caffe等;
        NVIDIA深度學習SDK:cuDNN,TensorRT,NCCL;
        深度學習顯卡選擇;
        OpenACC并行編程
        OpenACC上機實戰:Helloworld
        OpenACC四步開發流程:判斷并行性,并行化表達,顯式數據傳遞,優化
        判斷并行性:Profile工具pgprof
        并行化表達:引導關鍵字Kernerls和Parallel Loop
        顯式管理數據的拷貝:引導關鍵字Data
        OpenCL并行編程
        OpenCL:編程模型,存儲模型
        生態(覆蓋intel,amd,nvidia,移動端arm)
        CUDA vs OpenCL
        OpenCL向哪里走
        AMD ROCM HC/HIP編程
        AMD并行編程
        AMD生態
        hipify轉換
        HC/HIP編程
        HIP vs OpenCL