dandelionsllm / pandallm

Panda项目是于2023年5月启动的开源海外中文大语言模型项目,致力于大模型时代探索整个技术栈,旨在推动中文自然语言处理领域的创新和合作。
Apache License 2.0
1.07k stars 91 forks source link

很值得期待的新项目,加油。 #7

Open imgingroot opened 1 year ago

imgingroot commented 1 year ago

llama的中文问题一直没有很好的解决,一方面是词表,一方面是数据集。 Chinese-LLaMA的性能比大家预期的要差。很期待pandallm和Chinese-LLaMA的对比评测,可以让中文开源大模型越来越好。

看论文,pandallm使用的是llama的原始词表,作者可以说下原因吗?

SparkJiao commented 1 year ago

直觉上讲数据的质量基本决定了模型的质量,belle把基本所有的中文instruction tuning的数据都包括进去了,所以我们主要想对比这个模型。但我们正在筹备一个leaderboard,会增加更多的中文学术数据集以及极可能包含所有的中文模型。当然还是要提一句就是我们的模型不是很擅长对话,这是数据决定的,COIG的数据更多以任务导向为主(问答和翻译)。

我们后面会考虑把LLaMA换成别的模型,最好是多语言且开源可商用的语言模型,只是目前的开源模型要么没有用LLaMA这么大的预训练token量级(比如Dolly-6.9b),要么虽然是多语言但大家的反馈表示效果并没有很好(比如bloomz)。

关于词表的问题,我们其实一开始想过也扩充一下词表,因为好处有非常多,比如可以生成更长的序列,但是考虑到时间成本以及效果的不确定性我们还是没有做(unicode拆分后的子词应该也是被训练过了,重新扩充词表意味着要从零开始训练某些词向量)

最后,感谢支持。

imgingroot commented 1 year ago

是的,现在大家越来越发现,数据quality要远比size重要。好的词表,本质也是在提升数据质量。当然扩充词表确实比较麻烦,不确定性也很高。 我觉得pandallm线路方向很好,整理出一份好的数据集,用一套框架可以适配到不同的基础开源模型。 我建议这个数据集最好是包括一部分平行语料的形式,类似中英文双语,来源可以收集,也可以用其他模型来做翻译生成。另外随着数据集增大,还是需要考虑词表。数据量大了,从零开始训练也没什么,因为有前面的平行语料,从英文语料训练出来的能力也能比较好的迁移到中文中。

Bosheng2020 commented 1 year ago

非常感谢您的宝贵建议 我们会在后续版本进行调整

DaoD commented 1 year ago

想问一下,是否在验证集上观察到了过拟合现象?看起来训练数据量很小,对于语言模型而言可能很容易过拟合

SparkJiao commented 1 year ago

想问一下,是否在验证集上观察到了过拟合现象?看起来训练数据量很小,对于语言模型而言可能很容易过拟合

首先我们没有用数据集的验证集训练,应该也没有污染现象,所以应该不存在在验证集上过拟合的情况,且中文迁移预训练阶段的学习率相当小,所以只有可能在COIG上过拟合;README里放了不同instruction tuning step对应的checkpoint在C3和LogiQA-v2上的结果,目前还没有观察到饱和的现象。但依然不建议在小数据集上训练过久。