deepseek-ai / DeepSeek-Coder

DeepSeek Coder: Let the Code Write Itself
https://coder.deepseek.com/
MIT License
6.61k stars 461 forks source link

请问finetune脚本是全参微调么,最少需要多少显存和内存。 #103

Open juhengzhe opened 8 months ago

juhengzhe commented 8 months ago

1请问咱们官网提供的finetune脚本是全参微调么 2针对33b模型一般需要多少显存和内存 3针对33b模型最少需要多少显存和内存。

guoday commented 8 months ago
  1. 是全参数
  2. 如果是33B的话,一般需要80G显存,但通过pp并行(速度会慢),40G显存也是可以的
hyperbolic-c commented 6 months ago
  1. 是全参数
  2. 如果是33B的话,一般需要80G显存,但通过pp并行(速度会慢),40G显存也是可以的

@guoday 你好, 我微调1.3B是两张显卡都跑到30G了, 想微调6.7B的时候显存直接爆了(batch_size=4都不行), 请问为什么消耗这么高, 好奇怪, 请教一下是要设置什么参数吗? 谢谢.

soloice commented 6 months ago
  1. 是全参数
  2. 如果是33B的话,一般需要80G显存,但通过pp并行(速度会慢),40G显存也是可以的

@guoday 你好, 我微调1.3B是两张显卡都跑到30G了, 想微调6.7B的时候显存直接爆了(batch_size=4都不行), 请问为什么消耗这么高, 好奇怪, 请教一下是要设置什么参数吗? 谢谢.

什么并行策略?

hyperbolic-c commented 6 months ago

@soloice 您好,就是跑的官方例程. 请问如何修改并行策略呢谢谢大佬

wentinghome commented 4 months ago

你好,请问pp并行是什么?谢谢