Open goodnessSZW opened 1 year ago
关于模型base,3个问题麻烦请教下~
看了klon中的lora训练推理代码,我理解模型选择的chatglm2_lora base,是在chatglm2上基于silk-road/Chat_Suzumiya_Fusion数据集微调的的lora;但是Chat_Suzumiya_Fusion中只包括部分人物数据,生成一个新的人物,是直接抽取system prompt和对话记录后进行few-shot+知识库输出结果,还是需要将数据加入Chat_Suzumiya_Fusion数据重新训练呢?
形成模型输入格式:system prompt + story + history,Chat_Suzumiya_Fusion数据中应该只有前两个部分吧如下图,所以history在训练中没有,是推理中直接append上的,模型会将其作为story的一部分来理解?故事和历史的最大长度可以达到1500和1200,默认模型最大输入是2048?
你去知乎上加一下我微信吧 https://www.zhihu.com/people/cheng-li-47
instruction数据确实没有去用到~
之前的训练代码生成没有被统一到新的重构框架中,我想趁着英文llama的训练 重构掉这部分训练数据生成的代码
okok,我知乎给您发私信了
关于模型base,3个问题麻烦请教下~
看了klon中的lora训练推理代码,我理解模型选择的chatglm2_lora base,是在chatglm2上基于silk-road/Chat_Suzumiya_Fusion数据集微调的的lora;但是Chat_Suzumiya_Fusion中只包括部分人物数据,生成一个新的人物,是直接抽取system prompt和对话记录后进行few-shot+知识库输出结果,还是需要将数据加入Chat_Suzumiya_Fusion数据重新训练呢?
形成模型输入格式:system prompt + story + history,Chat_Suzumiya_Fusion数据中应该只有前两个部分吧如下图,所以history在训练中没有,是推理中直接append上的,模型会将其作为story的一部分来理解?故事和历史的最大长度可以达到1500和1200,默认模型最大输入是2048?