jackaduma / Vicuna-LoRA-RLHF-PyTorch

A full pipeline to finetune Vicuna LLM with LoRA and RLHF on consumer hardware. Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the Vicuna architecture. Basically ChatGPT but with Vicuna
MIT License
208 stars 18 forks source link

大神和原版vicuna仓库对比过效果吗? #3

Open magneter opened 1 year ago

magneter commented 1 year ago

我想基于vicuna-7b,在自己的数据集上做微调试一下。 仅仅做指令微调,相当于只做你的第一步supervised_finetune, 但是我不确定这样做的效果,大神有什么建议吗?

大神你的第一步supervised_finetune跑完,特别是代码和数理逻辑,和原版vicuna仓库对比过效果吗?

jackaduma commented 1 year ago

我想基于vicuna-7b,在自己的数据集上做微调试一下。 仅仅做指令微调,相当于只做你的第一步supervised_finetune, 但是我不确定这样做的效果,大神有什么建议吗?

大神你的第一步supervised_finetune跑完,特别是代码和数理逻辑,和原版vicuna仓库对比过效果吗?

做了个 业务数据的 微调。感觉还是可以的。 因为是强业务相关的知识问答类,所以是比 原版好。 您这边 代码和数理 相关的, 我不太确定。