请问有尝试过bloom其他参数规模的模型进行finetune吗？效果如何？

LianjiaTech / BELLE

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

Apache License 2.0

7.95k stars 761 forks source link

Closed ZhonghaoWang closed 1 year ago

ZhonghaoWang commented 1 year ago

研发者你好，我们对这个工作非常感兴趣，想要进行复现，但受限于算力和显存问题，bloom-7b可能train不动，所以想请教下你们是否有尝试过bloom小参数规模的模型进行finetune吗？效果如何？不确定更小的模型是否会有拟合能力不足的问题导致复现失败。

mabaochang commented 1 year ago

小参数模型指令泛化理解上可能有瓶颈，所以我们这次选择了7b，后续评估流程完善后，我们也会做相关尝试

ZhonghaoWang commented 1 year ago

小参数模型指令泛化理解上可能有瓶颈，所以我们这次选择了7b，后续评估流程完善后，我们也会做相关尝试

感谢解答，额外想请问是直接clm训练的吗？还是有其他multitask等操作。以及后续是否有开源训练代码的计划呢？

weberrr commented 1 year ago

能否提供finetune代码呢

ZhonghaoWang commented 1 year ago

能否提供finetune代码呢

作者还没回复，但是根据项目描述，如果没有额外操作的话，应该用的是这个：https://github.com/tatsu-lab/stanford_alpaca/blob/main/train.py

vxfla commented 1 year ago

https://github.com/vxfla/kanchil 试了下在1B的MT5上跑，微调后的T5能读懂人类指令，在部分问题上答得还不错，不过经常胡说八道。