Closed yxg19991231 closed 1 month ago
训练Selective-IGEV用两个3090就会爆显存,之前训练IGEV就没事,感觉参数量反而小了
Selective-IGEV参数量比IGEV大,而且SRU要维持两个GRU分支,2张3090默认配置确实不够,可以考虑降低train_iters至16,适当增加num_steps。
降低train_iters和增加num_steps会影响最终训练的效果吧?如果单独用SRU,具体代码该如何改,我尝试改了下若没有CSA模块会报各种错误
训练Selective-IGEV用两个3090就会爆显存,之前训练IGEV就没事,感觉参数量反而小了