Open pangbobi opened 10 months ago
当我用样例程序训练2000step只需要不到15分钟,而当我用trl的SFTTrainer封装加入neft之后,2000step的训练时长达到了70分钟,这种时长,怎么会有这么大
的时长变化呢?
这样继承SFTTrainer的
修改源码 把neft部分的耗时打出来 看看在embedding上加随机干扰的做法的耗时
当我用样例程序训练2000step只需要不到15分钟,而当我用trl的SFTTrainer封装加入neft之后,2000step的训练时长达到了70分钟,这种时长,怎么会有这么大
的时长变化呢?