TigerResearch / TigerBot

TigerBot: A multi-language multi-task LLM
https://www.tigerbot.com
Apache License 2.0
2.24k stars 194 forks source link

关于预训练数据比例的问题 #55

Closed DUT-LiuYang closed 1 year ago

DUT-LiuYang commented 1 year ago

感谢开源,关于公布的预训练数据有问题想请教下:

从预训练数据一节的图示可以看到,zh-baike占比达到了33.9%,zh-news只用了6.3%;这里的比例有包括过采样吗?

chentigerye commented 1 year ago

比例是我们预训练时采样后的比例,百科类会重复采样进训练就多个epoch,而中文网络数据可能一个epoch都不到。