跑DPO的时候出现下面的问题。 - Githubissues

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

2.94k stars 452 forks source link

跑DPO的时候出现下面的问题。 #298

Closed LanShanPi closed 6 months ago

LanShanPi commented 6 months ago

跑dpo的时候出现下面的问题： WechatIMG227 其中上图中红色框是下面这张图中红框的输出： WechatIMG228 第二张图所在文件为： /XXX/XXX/miniconda3/envs/medical/lib/python3.9/site-packages/trl/trainer/utils.py

从输出的数据来看，错误是因为列表中出现了None值，导致torch.LongTensor()出错，我没有改变数据，然后用的是chatglm3-6b的模型。

shibing624 commented 6 months ago

用llama类gpt结构的模型跑dpo

LanShanPi commented 6 months ago

这样啊，好吧，谢谢啦

lx86110 commented 6 months ago

用llama类gpt结构的模型跑dpo

dpo不支持chatglm吗

onex7777 commented 4 months ago

用llama类gpt结构的模型跑dpo

你好，使用qwen-chat版本不行吗