二次预训练 - Githubissues

zhihaiLLM / wisdomInterrogatory

Apache License 2.0

492 stars 42 forks source link

Closed LiuChen19960902 closed 1 year ago

LiuChen19960902 commented 1 year ago

您好，看到您的工作特别兴奋。

这里想请教一下二次预训练时候数据完全都是法律领域吗，有没有加入通用领域的数据集呢。

wuyiquan commented 1 year ago

感谢关注。二次预训练时候，还是需要保持一定通用领域的数据占比的，不然跟第一次预训练的数据分布相差太大，会训歪。

LiuChen19960902 commented 1 year ago

十分感谢~

sigmundchen commented 1 year ago

感谢关注。二次预训练时候，还是需要保持一定通用领域的数据占比的，不然跟第一次预训练的数据分布相差太大，会训歪。

readme中提到CPT用了40G数据，请问40G都是txt文档？有多少token呢？请问大概法律领域数据和通用领域数据的比例是多少呢？我们采用1:1比例进行CPT，但是发现遗忘很严重。

wuyiquan commented 1 year ago

这个是阿里的内部数据，我这边也看不到。可能可以试试7:3？