zhihaiLLM / wisdomInterrogatory

Apache License 2.0
462 stars 36 forks source link

二次预训练 #6

Closed LiuChen19960902 closed 10 months ago

LiuChen19960902 commented 10 months ago

您好,看到您的工作特别兴奋。

这里想请教一下二次预训练时候数据完全都是法律领域吗,有没有加入通用领域的数据集呢。

wuyiquan commented 10 months ago

感谢关注。二次预训练时候,还是需要保持一定通用领域的数据占比的,不然跟第一次预训练的数据分布相差太大,会训歪。

LiuChen19960902 commented 10 months ago

十分感谢~

sigmundchen commented 10 months ago

感谢关注。二次预训练时候,还是需要保持一定通用领域的数据占比的,不然跟第一次预训练的数据分布相差太大,会训歪。

readme中提到CPT用了40G数据,请问40G都是txt文档?有多少token呢?请问大概法律领域数据和通用领域数据的比例是多少呢?我们采用1:1比例进行CPT,但是发现遗忘很严重。

wuyiquan commented 10 months ago

这个是阿里的内部数据,我这边也看不到。可能可以试试7:3?