Open kevinuserdd opened 3 years ago
吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子
这么吃显存吗? 8万条训练数据16g就跑不动了
是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)
吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子
这么吃显存吗? 8万条训练数据16g就跑不动了
是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)
请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存
吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子
这么吃显存吗? 8万条训练数据16g就跑不动了
是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)
请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存
请问你的数据中的原句最大长度是多少?
吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子
这么吃显存吗? 8万条训练数据16g就跑不动了
是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)
请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存
请问你的数据中的原句最大长度是多少?
700左右
吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子
这么吃显存吗? 8万条训练数据16g就跑不动了
是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)
请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存
请问你的数据中的原句最大长度是多少?
parser.add_argument('--train_clip', default=True, help='是不是要把train的char长度限制在200以内') 但是已经限制200参数已经改为True,仍然显存不足
我1080ti,长度200,batch可以10
吃的显存应该和训练数据中的最长句子的长度相关,对10g显存来说,一般支持长度200的句子
这么吃显存吗? 8万条训练数据16g就跑不动了
是的,max_len=100, batch_size=32; 大约占9G, 6层6 * 100 dim的Transformer和BERT一样大:)
请问您如何在源码中设置batch_size,为什么无论我怎样缩减batch_size,都是爆显存
请问作者,这里的200指的是words+character的总长度吗?
这么吃显存吗? 8万条训练数据16g就跑不动了