Closed aiwillcoming closed 7 months ago
另外,可以免费提供A100训练,如有需要请回复
小于1B的小模型不具有涌现现象,更换设备除了训练快点,收益不明显。更换更好的、更大的数据集、加大模型参数可以提升一定的效果,但是不会达到1B以上模型的效果。text-to-text的预训练方式也制约了模型性能的进一步提升(提问很短,回答很长,一个提问多个回答会对模型造成困惑),或者参考chatglm一样更换预训练方式,或者更换为deoder-only的模型,如gpt2、llama等。
另外,可以免费提供A100训练,如有需要请回复