Closed Reason-Wang closed 12 months ago
请问微调一个模型(例如7B)需要多大的显存?
试了一下,如果使用 FSDP,在 --bf16 --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --seq_length 4096 --fsdp "full_shard auto_wrap" 下,至少需要 2 * 80GB 显存。
--bf16 --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --seq_length 4096 --fsdp "full_shard auto_wrap"
请问微调一个模型(例如7B)需要多大的显存?