PKU-YuanGroup / ChatLaw

ChatLaw:A Powerful LLM Tailored for Chinese Legal. 中文法律大模型
https://chatlaw.cloud/
GNU Affero General Public License v3.0
6.94k stars 543 forks source link

预训练阶段数据量级 #40

Open nuoma opened 1 year ago

nuoma commented 1 year ago

您好,关于预训练阶段语料不知道以下几点是否有特殊的考量?

请问法律增量预训练阶段的语料大约是多少B的量级?全都是法律的吗,没有和通用的做混合?以及同属于法律数据,不同数据来源的比例?