shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
3.24k stars 492 forks source link

数据集的划分问题,是否需要手动划分 train 和 val #244

Closed SoYuCry closed 11 months ago

SoYuCry commented 11 months ago

Describe the bug

Please provide a clear and concise description of what the bug is. If applicable, add screenshots to help explain your problem, especially for visualization related problems. 我在 https://github.com/shibing624/MedicalGPT/issues/242 里看到 会划分 train 和 val,但是在实际的代码中,我注意到没有划分。 微信图片_20231030160219

shibing624 commented 11 months ago

删除--validation_file_dir ,自动划分

SoYuCry commented 11 months ago

1、如果不删除 --validation_file_dir 手动划分是可以用的吗?like: --train_file_dir ./data/pretrain/train \ --validation_file_dir ./data/pretrain/test \

2、需要设置测试集吗?比如以8:1:1 的比例分配 train:test:val(不确定大模型中 pretrain 的比例)

shibing624 commented 11 months ago
  1. 可以;
  2. 需要;不懂逻辑就看代码。
SoYuCry commented 11 months ago

您好,仔细 debug 了一下代码。没有看到划分测试集的代码,只看到了划分 train_dataset 和 eval_dataset