shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
3.24k stars 492 forks source link

关于领域知识增量预训练,数据集准备的一些问题 #279

Closed youbingchenyoubing closed 8 months ago

youbingchenyoubing commented 10 months ago

数据集准备一些问题

我现在只有word pdf 等格式数据,先做增量预训练,请问我应该怎么怎么增量预训练的数据集

shibing624 commented 10 months ago

转成txt,清洗数据。