charent / ChatLM-mini-Chinese

中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。
Apache License 2.0
1.13k stars 135 forks source link

如果在更好的设备上训练效果区别大吗 #18

Closed aiwillcoming closed 7 months ago

aiwillcoming commented 7 months ago

另外,可以免费提供A100训练,如有需要请回复

charent commented 7 months ago

小于1B的小模型不具有涌现现象,更换设备除了训练快点,收益不明显。更换更好的、更大的数据集、加大模型参数可以提升一定的效果,但是不会达到1B以上模型的效果。text-to-text的预训练方式也制约了模型性能的进一步提升(提问很短,回答很长,一个提问多个回答会对模型造成困惑),或者参考chatglm一样更换预训练方式,或者更换为deoder-only的模型,如gpt2、llama等。