Open 18438602970 opened 2 years ago
为什么训练时候显示显存才占了5个G,官方的占30个g,而且还训练的很慢,这是怎么回事啊,标签按理说应该占据很大内存呀,seqlen*关系种类;然后我更改了batch,又说GPU暴了,这是啥情况
为什么训练时候显示显存才占了5个G,官方的占30个g,而且还训练的很慢,这是怎么回事啊,标签按理说应该占据很大内存呀,seqlen*关系种类;然后我更改了batch,又说GPU暴了,这是啥情况