Closed DUT-LiuYang closed 1 year ago
感谢开源,关于公布的预训练数据有问题想请教下:
从预训练数据一节的图示可以看到,zh-baike占比达到了33.9%,zh-news只用了6.3%;这里的比例有包括过采样吗?
比例是我们预训练时采样后的比例,百科类会重复采样进训练就多个epoch,而中文网络数据可能一个epoch都不到。
感谢开源,关于公布的预训练数据有问题想请教下:
从预训练数据一节的图示可以看到,zh-baike占比达到了33.9%,zh-news只用了6.3%;这里的比例有包括过采样吗?