LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer
1k stars 178 forks source link

显存不足 #41

Open kevinuserdd opened 3 years ago

kevinuserdd commented 3 years ago

这么吃显存吗? 8万条训练数据16g就跑不动了

LeeSureman commented 3 years ago

吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子

nlp4whp commented 3 years ago

这么吃显存吗? 8万条训练数据16g就跑不动了

是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)

zelin-x commented 3 years ago

吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子

这么吃显存吗? 8万条训练数据16g就跑不动了

是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)

请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存

LeeSureman commented 3 years ago

吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子

这么吃显存吗? 8万条训练数据16g就跑不动了

是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)

请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存

请问你的数据中的原句最大长度是多少?

zelin-x commented 3 years ago

吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子

这么吃显存吗? 8万条训练数据16g就跑不动了

是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)

请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存

请问你的数据中的原句最大长度是多少?

700左右

zelin-x commented 3 years ago

吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子

这么吃显存吗? 8万条训练数据16g就跑不动了

是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)

请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存

请问你的数据中的原句最大长度是多少?

parser.add_argument('--train_clip', default=True, help='是不是要把train的char长度限制在200以内') 但是已经限制200参数已经改为True,仍然显存不足

LeeSureman commented 3 years ago

我1080ti,长度200,batch可以10

nlp4whp commented 3 years ago

吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子

这么吃显存吗? 8万条训练数据16g就跑不动了

是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)

请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存

这里有: https://github.com/LeeSureman/Flat-Lattice-Transformer/blob/5dc2b268e8d38a7e742efbfa502550ec748225d2/V0/flat_main.py#L73

WMT123 commented 3 years ago

请问作者,这里的200指的是words+character的总长度吗?