Open Kevin-myxu opened 11 months ago
作者您好,首先感谢开源。 我在训练第三阶段的时候,用40G显存的GPU无法加载actor model=llama-7b, reward model =llama-7b,会有OOM的问题,因此我尝试把reward model改为更小的bloom1.7b。但是两个模型不互通tokenizer,在step 3,create model的阶段,加载了不同的tokenizer,然而在计算critic_loss的时候,是不是需要把数据转化为critic tokenizer下的表示,然后再计算critic loss?还是说用actor tokenizer处理的数据计算critic loss时不会有影响? 再次感谢!
作者您好,首先感谢开源。 我在训练第三阶段的时候,用40G显存的GPU无法加载actor model=llama-7b, reward model =llama-7b,会有OOM的问题,因此我尝试把reward model改为更小的bloom1.7b。但是两个模型不互通tokenizer,在step 3,create model的阶段,加载了不同的tokenizer,然而在计算critic_loss的时候,是不是需要把数据转化为critic tokenizer下的表示,然后再计算critic loss?还是说用actor tokenizer处理的数据计算critic loss时不会有影响? 再次感谢!