GPU 運算

2 Articles

PyTorch 分散式訓練技術與多GPU 應用實踐

2024年07月22日 – 13 分鐘閱讀

本文深入探討 PyTorch 分散式訓練的機制與實踐，包含 Distributed-DataParallel (DDP) 策略的運作流程、優缺點，以及如何在多 GPU 環境下使用 DistributedSampler 與 DDP 進行模型訓練，同時提供 CUDA_VISIBLE_DEVICES

CUDA 深度學習實務應用與效能最佳化

2024年04月19日 – 12 分鐘閱讀

本文探討 CUDA 在深度學習中的實務應用，包含資料傳輸、Kernel 啟動、向量加法範例與完整程式碼。同時也介紹如何使用 nvcc 編譯 CUDA 程式，以及如何利用深度學習框架如 PyTorch 的 C++ API（libtorch）進行更高層級的抽象操作，避免直接操作 CUDA，簡化開發流程。最後也探討了