Closed kingkingofall closed 1 year ago
数据增强的时候是否有确保batch size没变?显存溢出大概率是batch size变大了很多
是的,区别只有是否注释了数据增强那句
@kingkingofall 我的意思是你的这个函数,可能改变了batch size,导致显存变大。可能需要研究下怎么控制数据增强不改变batch size
另外就是试一下,把这个数据增强操作,不要放在get item这个环节做。 在训练For循环的过程中,用Data Collator的方式来做。
因为你这个操作可能会不断个更改原始数据,导致数据过长活着batch size过大,导致显存溢出。 需要在get item之后的环节处理,确保不篡改了原始的数据。
哦哦,好的,谢谢
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。
关于使用了nlpcda进行数据增强后,出现了显存溢出问题,即使是将batch_size调小也同样会出问题
数据增强部分代码:
from nlpcda import CharPositionExchange, Homophone smw = CharPositionExchange(create_num=2, change_rate=0.3,char_gram=3,seed=1024)
class MYDataset(paddle.io.Dataset): def init(self, sents, labels): self.sents = sents self.labels = labels