Closed KyrieXu11 closed 9 months ago
- 是增量预训练还是SFT,取决于你的基模型是什么类型。
- 原则上,你扩到多少长度就准备多少长度的数据。
- 不同模型之间没有参考性,建议你自行设置valid set观察PPL或者在长文本任务上观察指标变化。
- 暂不开源。
好的,谢谢大佬解答。
请允许我再问一个小白问题: 如果我的基座模型是base模型,就应该使用增量预训练? 如果拿来做对话或者其他指令任务,就在这个增量后的base模型基础上做sft?
如果我的基座模型是base模型,就应该使用增量预训练?
是的。如果是非chat模型,直接使用无标注的语料做增量CLM训练就可以了。
如果拿来做对话或者其他指令任务,就在这个增量后的base模型基础上做sft?
是的。但是也要注意SFT阶段可能会丢失一部分长距离信息,主要看你的SFT数据的长度。所以最理想的情况是预训练阶段和SFT阶段都用足够长的文本训练。
如果我的基座模型是base模型,就应该使用增量预训练?
是的。如果是非chat模型,直接使用无标注的语料做增量CLM训练就可以了。
如果拿来做对话或者其他指令任务,就在这个增量后的base模型基础上做sft?
是的。但是也要注意SFT阶段可能会丢失一部分长距离信息,主要看你的SFT数据的长度。所以最理想的情况是预训练阶段和SFT阶段都用足够长的文本训练。
好的,感谢大佬耐心解答,祝大佬生活愉快!
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
提交前必须检查以下项目
问题类型
其他问题
基础模型
Others
操作系统
Linux
详细描述问题
各位大佬好,因为在discussion区提问没有得到回复,所以在issue区也提一个,请各位大佬见谅。
我这边有个模型现在有8k的上下文长度,如果我想扩展到16k的长度,已经使用ntk直接推理测试过,但是想用线性插值训练一下模型测试看看,线性插值的代码已经实现。
所以想请教一下下面的几个问题:
依赖情况(代码类问题务必提供)
运行日志或截图