关于制作预训练数据的时间优化

wzzzd / pretrain_bert_with_maskLM

使用Mask LM预训练任务来预训练Bert模型。训练垂直领域语料的模型表征，提升下游任务的表现。

40 stars 11 forks source link

关于制作预训练数据的时间优化 #3

Open jarork opened 2 years ago

jarork commented 2 years ago

制作bert预训练数据集DataManager的op_mask_wwm和op_mask那里，其实可以使用numpy取一个值域在[0,1]上的维度保持一样的array，然后用numpy来操作，应该会快得多，数据量太大会消耗很多时间。比如可以使用这种写法： random_tensor = torch.rand(inputs['input_ids'].shape) masked_tensor = (random_tensor < 0.15)(inputs['input_ids'] != 101)(inputs['input_ids'] != 102)*(inputs['input_ids'] != 0)

wzzzd commented 2 years ago

确实简洁，又高效。学习了！