Closed hankcs closed 3 years ago
感谢贡献这么优秀的预训练模型。方便的话,能否告知Mengzi-T5-base的预训练任务是denoising auto-encoding (DAE)还是预测下一段文本(LM)?如果是DAE的话,用了什么noise呢?Token Infilling和Sentence Permutation之类的。
这次开源的 Mengzi-T5-base 参考了 Google 在 T5 文章中的描述重新实现,Mask 概率调整为 10% 。 在做下游生成任务之前,我们还进行了类似 BART 的 continue train,这方面的工作还在进行中。
感谢贡献这么优秀的预训练模型。方便的话,能否告知Mengzi-T5-base的预训练任务是denoising auto-encoding (DAE)还是预测下一段文本(LM)?如果是DAE的话,用了什么noise呢?Token Infilling和Sentence Permutation之类的。