shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
3.24k stars 492 forks source link

请问下,预训练中如何对train set和validation set的比例进行设定? #286

Closed erichuazhou closed 9 months ago

erichuazhou commented 9 months ago

Describe the Question

Please provide a clear and concise description of what the question is. 这是原始的 run_pt.sh --train_file_dir ./data/pretrain \ --validation_file_dir ./data/pretrain \

这是说明把 ./data/pretrain 中所有的数据都作为训练集,同时也作为验证集吗? 如何对 ./data/pretrain 中所有的数据 按某个比例的划分为训练集和验证集?

谢谢。 @shibing624

shibing624 commented 9 months ago

看下validation_split_percentage的逻辑,默认1%是val

erichuazhou commented 9 months ago

image 如果将 train_file_dir 和 validation_file_dir 设为相同的路径,我的log显示是不会自动进行split?train数据集和validation数据集都是一样的? 请大佬解答下。谢谢。 @shibing624

shibing624 commented 9 months ago

validation_file_dir不设置,删了。