如果在更好的设备上训练效果区别大吗

charent / ChatLM-mini-Chinese

中文对话0.2B小模型（ChatLM-Chinese-0.2B），开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调，给出三元组信息抽取微调示例。

Apache License 2.0

1.13k stars 135 forks source link

如果在更好的设备上训练效果区别大吗 #18

Closed aiwillcoming closed 7 months ago

aiwillcoming commented 7 months ago

另外，可以免费提供A100训练，如有需要请回复

charent commented 7 months ago

小于1B的小模型不具有涌现现象，更换设备除了训练快点，收益不明显。更换更好的、更大的数据集、加大模型参数可以提升一定的效果，但是不会达到1B以上模型的效果。text-to-text的预训练方式也制约了模型性能的进一步提升（提问很短，回答很长，一个提问多个回答会对模型造成困惑），或者参考chatglm一样更换预训练方式，或者更换为deoder-only的模型，如gpt2、llama等。