如何微调用于下游任务？

jingyaogong / minimind

「大模型」3小时完全从0训练26M的小参数GPT，个人显卡即可推理训练！

https://jingyaogong.github.io/minimind

Apache License 2.0

2.73k stars 330 forks source link

如何微调用于下游任务？ #56

Closed h2h2h closed 1 month ago

h2h2h commented 1 month ago

训练集是csv文件，有history,q和a三列，其中history是空列表。将其输入4-lora_sft.py中，因为训练集比较小，就把--save_interval由1000改成了100，训练完成后将得到的safetensors放到2-eval.py中输出直接胡言乱语了...本人是小白，诚恳地请教该如何去微调呢？问题出在了哪里？谢谢🙏

jingyaogong commented 1 month ago

无法从以上描述获取任何定量信息，例如数据集条数？学习率？下游任务类型？“胡言乱语”指的是什么程度？LoRA微调前的基座效果如何？用full_sft有没有试过？

等等

希望进一步提供分析问题😊

h2h2h commented 1 month ago

谢谢回复！我的描述确实太业余的。。。数据集大概只有1000条左右，学习率是default的1e-4，想微调用于特定领域的三元组抽取，model和tokenizer的路径填的是使用huggingface-cli下载下来的minimind-v1-small。再次抱歉，这是我第一次发issues，确实太业余了🤦

jingyaogong commented 1 month ago

谢谢回复！我的描述确实太业余的。。。数据集大概只有1000条左右，学习率是default的1e-4，想微调用于特定领域的三元组抽取，model和tokenizer的路径填的是使用huggingface-cli下载下来的minimind-v1-small。再次抱歉，这是我第一次发issues，确实太业余了🤦

没任何关系，feel free，有问题随意交流即可

现在的问答是什么样的效果，有没有样例

尝试一下把学习率改成1e-6及以下