DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k stars 288 forks source link

请问在处理微调数据集时为何要限制文本长度? #73

Open jzzzf opened 2 months ago

jzzzf commented 2 months ago

if len(q) < 10 or len(a) < 5: continue if len(q) > 256 or len(a) > 256: continue 请教下限制q,a长度的原因

buhe commented 1 month ago

估计是太短效果不好,预训练也有类似判断