Closed wuguangshuo closed 5 months ago
请问开启flashattention后,在sft可以节约多少显存和减少多少训练时间呢,我在4090上训练llama2 好像没有明显的变化
用的transformers的flash_attn,加速问题可以在官方transformers提issue。
请问开启flashattention后,在sft可以节约多少显存和减少多少训练时间呢,我在4090上训练llama2 好像没有明显的变化