Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 421 forks source link

训练的3.0轮是够的么? #136

Closed wilson9x1 closed 1 year ago

wilson9x1 commented 1 year ago

1、哪个操作系统:centos 2、使用的什么显卡、多少张 2个张显卡 3、python的版本 3.10 4、python各种库的版本 用的pip install -r requirements.txt

使用的是你们的https://github.com/Facico/Chinese-Vicuna/blob/master/sample/merge_sample.json 10条测试样例。没有改过代码。 因为是10,跑的3轮,很快成功并结束: 'loss': 0.24425329764684042, 'epoch': 3.0

感觉训练效果不太好??(这个回答一个是llama本身的回答吧?好像merge_sample.json喂给的数据没啥关系?)我感觉是不是训练的3.0轮不太够?所以效果不好

截屏2023-05-07 07 07 00

看来的finetune代码,不知道我理解的有没有问题。。 原理:Chinese-Vicuna直接用llama 用merge_sample.json作为训练集进行训练? 感觉llama对中文支持不太好,好像不是很理解中文问题?所以训练3轮下来效果不太好。 或者也可能是merge_sample.json 10条测试样例太少了?

WangFengtu1996 commented 1 year ago

3 个epoch,loss能下降到这么低?