Open gongye19 opened 6 months ago
请问cpo必须使用peft_model_id以及use_peft吗?是否可以只设置,论文中好像没提到需要reference model
--model_name_or_path haoranxu/ALMA-13B-Pretrain \ --tokenizer_name haoranxu/ALMA-13B-Pretrain \
你好! 不一定, 您也可以用full-weight fine-tuning。
好的 谢谢,跑通了,但我比较rewards/chosen和rewards/rejected曲线,它们之间的距离并没有被拉开
请问cpo必须使用peft_model_id以及use_peft吗?是否可以只设置,论文中好像没提到需要reference model
--model_name_or_path haoranxu/ALMA-13B-Pretrain \ --tokenizer_name haoranxu/ALMA-13B-Pretrain \