fastnlp / CPT

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
481 stars 70 forks source link

关于pretraining时denoising的问题 #71

Open tu2022 opened 1 year ago

tu2022 commented 1 year ago

我看bart的论文在pretraining的时候会有五种denoising的方法,在bart_dataset.py中我看insert_ratio和rotate_ratio是设为0,似乎不能将其设为大于0的数,是否意味着不能进行text infilling和rotation?

choosewhatulike commented 1 year ago

是的,denoising我们follow了BART的设置,只使用text infilling,没有加入insert和rotate。BART论文中表示这样效果最好

tu2022 commented 1 year ago

还有个问题想问一下,你们这个预训练时,每个iteration时训练global batch size条数据吗?训练的每一条数据是截止至1024长度的文章,还是一整篇文章,文章被切割成一句一句,每一句padding到1024?

choosewhatulike commented 8 months ago

是第一种,太长的文章会被分成多个1024。短的会padding到1024