大佬，DPO训练报错

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

2.94k stars 451 forks source link

Closed cheun726 closed 1 week ago

cheun726 commented 1 week ago

Please provide a clear and concise description of what the question is.

shibing624 commented 1 week ago

检查数据，看着是有空值。

cheun726 commented 1 week ago

徐老师，我按照你的notebook跑，报了这个错，麻烦帮我看下如何解决

cheun726 commented 1 week ago

DPO阶段

shibing624 commented 1 week ago

--max_eval_samples 1000 ,改为这个。