关于pretraining时denoising的问题

fastnlp / CPT

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

481 stars 70 forks source link

Open tu2022 opened 1 year ago

tu2022 commented 1 year ago

我看bart的论文在pretraining的时候会有五种denoising的方法，在bart_dataset.py中我看insert_ratio和rotate_ratio是设为0，似乎不能将其设为大于0的数，是否意味着不能进行text infilling和rotation？

choosewhatulike commented 1 year ago

是的，denoising我们follow了BART的设置，只使用text infilling，没有加入insert和rotate。BART论文中表示这样效果最好

tu2022 commented 1 year ago

还有个问题想问一下，你们这个预训练时，每个iteration时训练global batch size条数据吗？训练的每一条数据是截止至1024长度的文章，还是一整篇文章，文章被切割成一句一句，每一句padding到1024？

choosewhatulike commented 8 months ago

是第一种，太长的文章会被分成多个1024。短的会padding到1024