LianjiaTech / BELLE

BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)
Apache License 2.0
7.95k stars 761 forks source link

请问有尝试过bloom其他参数规模的模型进行finetune吗?效果如何? #19

Closed ZhonghaoWang closed 1 year ago

ZhonghaoWang commented 1 year ago

研发者你好,我们对这个工作非常感兴趣,想要进行复现,但受限于算力和显存问题,bloom-7b可能train不动,所以想请教下你们是否有尝试过bloom小参数规模的模型进行finetune吗?效果如何? 不确定更小的模型是否会有拟合能力不足的问题导致复现失败。

mabaochang commented 1 year ago

小参数模型指令泛化理解上可能有瓶颈,所以我们这次选择了7b,后续评估流程完善后,我们也会做相关尝试

ZhonghaoWang commented 1 year ago

小参数模型指令泛化理解上可能有瓶颈,所以我们这次选择了7b,后续评估流程完善后,我们也会做相关尝试

感谢解答,额外想请问是直接clm训练的吗?还是有其他multitask等操作。 以及后续是否有开源训练代码的计划呢?

weberrr commented 1 year ago

能否提供finetune代码呢

ZhonghaoWang commented 1 year ago

能否提供finetune代码呢

作者还没回复,但是根据项目描述,如果没有额外操作的话,应该用的是这个:https://github.com/tatsu-lab/stanford_alpaca/blob/main/train.py

vxfla commented 1 year ago

https://github.com/vxfla/kanchil 试了下在1B的MT5上跑,微调后的T5能读懂人类指令,在部分问题上答得还不错,不过经常胡说八道。