Closed ZhonghaoWang closed 1 year ago
小参数模型指令泛化理解上可能有瓶颈,所以我们这次选择了7b,后续评估流程完善后,我们也会做相关尝试
小参数模型指令泛化理解上可能有瓶颈,所以我们这次选择了7b,后续评估流程完善后,我们也会做相关尝试
感谢解答,额外想请问是直接clm训练的吗?还是有其他multitask等操作。 以及后续是否有开源训练代码的计划呢?
能否提供finetune代码呢
能否提供finetune代码呢
作者还没回复,但是根据项目描述,如果没有额外操作的话,应该用的是这个:https://github.com/tatsu-lab/stanford_alpaca/blob/main/train.py
https://github.com/vxfla/kanchil 试了下在1B的MT5上跑,微调后的T5能读懂人类指令,在部分问题上答得还不错,不过经常胡说八道。
研发者你好,我们对这个工作非常感兴趣,想要进行复现,但受限于算力和显存问题,bloom-7b可能train不动,所以想请教下你们是否有尝试过bloom小参数规模的模型进行finetune吗?效果如何? 不确定更小的模型是否会有拟合能力不足的问题导致复现失败。