wzzzd / pretrain_bert_with_maskLM

使用Mask LM预训练任务来预训练Bert模型。训练垂直领域语料的模型表征,提升下游任务的表现。
40 stars 11 forks source link

关于制作预训练数据的时间优化 #3

Open jarork opened 2 years ago

jarork commented 2 years ago

制作bert预训练数据集DataManager的op_mask_wwm和op_mask那里,其实可以使用numpy取一个值域在[0,1]上的维度保持一样的array,然后用numpy来操作,应该会快得多,数据量太大会消耗很多时间。比如可以使用这种写法: random_tensor = torch.rand(inputs['input_ids'].shape) masked_tensor = (random_tensor < 0.15)(inputs['input_ids'] != 101)(inputs['input_ids'] != 102)*(inputs['input_ids'] != 0)

wzzzd commented 2 years ago

确实简洁,又高效。学习了!