Closed zhengjie-zhou closed 2 months ago
no
目前工程中集成了DPO、PPO、KTO、SFT等训练方式,是否可以新增对他们的组合功能,比如$L= \alpha L_{SFT} + \beta L_{DPO}$ ,其中$\alpha$和$\beta$属于超参数。
No response
请见 pref_ftx 参数
pref_ftx: float = field( default=0.0, metadata={"help": "The supervised fine-tuning loss coefficient in DPO training."}, ) 那如果我想联合DPO和KTO进行训练,该如何调整? @hiyouga
Reminder
System Info
no
Reproduction
no
Expected behavior
目前工程中集成了DPO、PPO、KTO、SFT等训练方式,是否可以新增对他们的组合功能,比如$L= \alpha L_{SFT} + \beta L_{DPO}$ ,其中$\alpha$和$\beta$属于超参数。
Others
No response