Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 421 forks source link

请问这个的效果和vicuna相比怎么样 #108

Closed rayvzn119 closed 1 year ago

rayvzn119 commented 1 year ago

和原版vicuna相比,这个的效果如何,尤其是中文方面

fireice009 commented 1 year ago

同问。另外请问跟https://github.com/lm-sys/FastChat的vicuna关系是什么?

lmclmc commented 1 year ago

python都有语法错误,这都什么玩意

Facico commented 1 year ago

@rayvzn119 standford的vicuna主要是全量微调+不开8bit+全长度(2048),他们之前的那个效果一般,不过在最近的V1.1版本效果挺好的,基底是13B模型。我们主要在7B上的模型+lora+8bit上进行训练,由于资源所限,我们目前的目标还是在小资源下如何提高中文能力。目前中文能力确实是不如他们的13B的V1.1版本。 @fireice009 可以参考这个issue

Facico commented 1 year ago

@lmclmc 作为一个开源项目,如果你遇到了错误,欢迎提供给我们,我们做出即时的修改

Eriice commented 1 year ago

python都有语法错误,这都什么玩意

别人辛辛苦苦开源,耐心解答问题。

没有收你一毛钱,没有夸大项目秒天秒地,怎么到你口中就成了"什么玩意"?

好好说话有那么难么?

ldfandian commented 1 year ago

@rayvzn119 standford的vicuna主要是全量微调+不开8bit+全长度(2048),他们之前的那个效果一般,不过在最近的V1.1版本效果挺好的,基底是13B模型。我们主要在7B上的模型+lora+8bit上进行训练,由于资源所限,我们目前的目标还是在小资源下如何提高中文能力。目前中文能力确实是不如他们的13B的V1.1版本。 @fireice009 可以参考这个issue

期待基于13B做一个效果更好的~