Open PHI6kai opened 8 months ago
不管训大的训练集还是小的都会显示overflow然后全为0,是内存问题还是显存问题呢,用的A100-80G @Sleepychord
这是deepspeed的scaling机制,可以防止overflow。
也就是说这个是正常的么?