关于benchmark实验结果的疑问

frankxyy commented 2 years ago

在相同的1n1g的机器资源下，为什么对于tensor model parallel，bs更大，samples/s 还小了？

chengtbf commented 2 years ago

可以看一下 ac 这个参数（activation checkpointing），这个是反向重计算，会额外在反向的时候做一遍前向，从而大幅降低显存开销（可以跑更大的 batch size）约 40%，但是会有 20% 左右的性能开销。

视前向计算在整体的占比，如果是 acc 场景，占比会更大一些，约 1/3 = 前向 /（前向 + 反向），一般网络，反向计算量是前向的两倍。

tensor model parallel 中用到了 ac，所以才可以跑 128 这么大的 bs，代价就是会多做一次前向。

frankxyy commented 2 years ago

哦哦，了解了，这样看来对于bert，使用tensor parallel没有效果啊

Oneflow-Inc / libai