charent / ChatLM-mini-Chinese

中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。
Apache License 2.0
1.22k stars 146 forks source link

tokenizer训练OOM 。内存60G #59

Open musexiaoluo opened 2 months ago

musexiaoluo commented 2 months ago

调用 train_my_huggingface_wiki_tokenizer 方法时,OOM 。 超过了 60G 的内存

image

charent commented 1 month ago

试试用Windows训练,把硬盘当作内存用。另外,可以对数据集进行随机采样,没必要用全部的数据训练tokenizer。