Open bindog opened 4 years ago
https://bindog.github.io/blog/2020/05/20/optimize-training-memory-by-op-fusion-gradient-checkpoint/
背景 反向传播是如何工作的? 显存被谁吃掉了 手动合并OP 还能更进一步吗? CUDA版的swish activation背景前几天看到知乎上的文章FLOPs与模型推理速度,文中提到一个比较耗时又占显存的pointwise操作x * sigmoid(x),这实际上是swish activation;...
https://bindog.github.io/blog/2020/05/20/optimize-training-memory-by-op-fusion-gradient-checkpoint/
背景 反向传播是如何工作的? 显存被谁吃掉了 手动合并OP 还能更进一步吗? CUDA版的swish activation背景前几天看到知乎上的文章FLOPs与模型推理速度,文中提到一个比较耗时又占显存的pointwise操作x * sigmoid(x),这实际上是swish activation;...