DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

要训练几个epoch,会有比较好的效果? #26

Closed binwang672012 closed 11 months ago

binwang672012 commented 11 months ago

非常感谢大佬的分享! 我试了下wiki 数据集,训练3个epoch ,用训练数据中的例子用eval程序测试了下,结果不是很理想,大概要训练多少epoch会有效果? 另外我临时用的是一个低端显卡,batch_size=4,是否太低了,导致效果会很差?

prompt: 介绍一下昭通机场 answer: 布勒代斯 (德塞夫勒省) 布勒代斯(Bourth,bʁe)是法国德塞夫勒省的一个市镇,属于帕.圣洛朗区。 地理 (P625)面积P2046,位于法国新阿基坦大区德塞夫勒省,该省份为法国西部沿海省份,北起曼恩-卢瓦尔省,西接旺代省,南至

DLLXW commented 11 months ago

非常感谢大佬的分享! 我试了下wiki 数据集,训练3个epoch ,用训练数据中的例子用eval程序测试了下,结果不是很理想,大概要训练多少epoch会有效果? 另外我临时用的是一个低端显卡,batch_size=4,是否太低了,导致效果会很差?

prompt: 介绍一下昭通机场 answer: 布勒代斯 (德塞夫勒省) 布勒代斯(Bourth,bʁe)是法国德塞夫勒省的一个市镇,属于帕.圣洛朗区。 地理 (P625)面积P2046,位于法国新阿基坦大区德塞夫勒省,该省份为法国西部沿海省份,北起曼恩-卢瓦尔省,西接旺代省,南至

wiki数据太小了,肯定训不出来什么智能,只能加大语料加大模型。

binwang672012 commented 11 months ago

非常感谢大佬的分享! 我试了下wiki 数据集,训练3个epoch ,用训练数据中的例子用eval程序测试了下,结果不是很理想,大概要训练多少epoch会有效果? 另外我临时用的是一个低端显卡,batch_size=4,是否太低了,导致效果会很差? prompt: 介绍一下昭通机场 answer: 布勒代斯 (德塞夫勒省) 布勒代斯(Bourth,bʁe)是法国德塞夫勒省的一个市镇,属于帕.圣洛朗区。 地理 (P625)面积P2046,位于法国新阿基坦大区德塞夫勒省,该省份为法国西部沿海省份,北起曼恩-卢瓦尔省,西接旺代省,南至

wiki数据太小了,肯定训不出来什么智能,只能加大语料加大模型。

感谢大佬提醒!另外还想进一步问两个问题,帮忙看下: 我打算自制出 某垂直领域的数据集,但该行业获取的数据量很小,可能就几千或者上万条这种。 那这时候,如果我训练时混合了几百万的 wiki 百科这样的数据一起训练,那原行业的数据信息还能被学习到不?或者说较好的混合数据配比大概多少? 另外,针对我的这种情况,是否就不适合用 pretrain 这种方法,而应该改成 微调或者其他方法么?

还请大佬抽空帮忙给点意见,非常感谢!

DLLXW commented 11 months ago

非常感谢大佬的分享! 我试了下wiki 数据集,训练3个epoch ,用训练数据中的例子用eval程序测试了下,结果不是很理想,大概要训练多少epoch会有效果? 另外我临时用的是一个低端显卡,batch_size=4,是否太低了,导致效果会很差? prompt: 介绍一下昭通机场 answer: 布勒代斯 (德塞夫勒省) 布勒代斯(Bourth,bʁe)是法国德塞夫勒省的一个市镇,属于帕.圣洛朗区。 地理 (P625)面积P2046,位于法国新阿基坦大区德塞夫勒省,该省份为法国西部沿海省份,北起曼恩-卢瓦尔省,西接旺代省,南至

wiki数据太小了,肯定训不出来什么智能,只能加大语料加大模型。

感谢大佬提醒!另外还想进一步问两个问题,帮忙看下: 我打算自制出 某垂直领域的数据集,但该行业获取的数据量很小,可能就几千或者上万条这种。 那这时候,如果我训练时混合了几百万的 wiki 百科这样的数据一起训练,那原行业的数据信息还能被学习到不?或者说较好的混合数据配比大概多少? 另外,针对我的这种情况,是否就不适合用 pretrain 这种方法,而应该改成 微调或者其他方法么?

还请大佬抽空帮忙给点意见,非常感谢!

如果数据量很小,那就用来做SFT。但是建议尽量多收集一些相关领域的预训练语料(我理解相关领域的预训练语料还是很好收集的吧,比如医疗、保险、金融法律等领域为例,都有大量的书籍文献)。先预训练一个基座模型,再用你的那部分几千上万条语料进行SFT。

binwang672012 commented 11 months ago

好的,非常感谢!