Closed LiuChen19960902 closed 1 year ago
感谢关注。二次预训练时候,还是需要保持一定通用领域的数据占比的,不然跟第一次预训练的数据分布相差太大,会训歪。
十分感谢~
感谢关注。二次预训练时候,还是需要保持一定通用领域的数据占比的,不然跟第一次预训练的数据分布相差太大,会训歪。
readme中提到CPT用了40G数据,请问40G都是txt文档?有多少token呢?请问大概法律领域数据和通用领域数据的比例是多少呢?我们采用1:1比例进行CPT,但是发现遗忘很严重。
这个是阿里的内部数据,我这边也看不到。可能可以试试7:3?
您好,看到您的工作特别兴奋。
这里想请教一下二次预训练时候数据完全都是法律领域吗,有没有加入通用领域的数据集呢。