Closed westnight closed 1 year ago
我用cuda extention 的方式添加了一个op,用bmtrain框架跑会报OOM,应该是ZeRO没有起效,请问这个问题怎么解决?
BMTrain 只对 torch Module 层面做了处理
我用cuda extention 的方式添加了一个op,用bmtrain框架跑会报OOM,应该是ZeRO没有起效,请问这个问题怎么解决?