很值得期待的新项目，加油。

imgingroot commented 1 year ago

llama的中文问题一直没有很好的解决，一方面是词表，一方面是数据集。 Chinese-LLaMA的性能比大家预期的要差。很期待pandallm和Chinese-LLaMA的对比评测，可以让中文开源大模型越来越好。

看论文，pandallm使用的是llama的原始词表，作者可以说下原因吗？

SparkJiao commented 1 year ago

直觉上讲数据的质量基本决定了模型的质量，belle把基本所有的中文instruction tuning的数据都包括进去了，所以我们主要想对比这个模型。但我们正在筹备一个leaderboard，会增加更多的中文学术数据集以及极可能包含所有的中文模型。当然还是要提一句就是我们的模型不是很擅长对话，这是数据决定的，COIG的数据更多以任务导向为主（问答和翻译）。

我们后面会考虑把LLaMA换成别的模型，最好是多语言且开源可商用的语言模型，只是目前的开源模型要么没有用LLaMA这么大的预训练token量级（比如Dolly-6.9b），要么虽然是多语言但大家的反馈表示效果并没有很好（比如bloomz）。

关于词表的问题，我们其实一开始想过也扩充一下词表，因为好处有非常多，比如可以生成更长的序列，但是考虑到时间成本以及效果的不确定性我们还是没有做（unicode拆分后的子词应该也是被训练过了，重新扩充词表意味着要从零开始训练某些词向量）

最后，感谢支持。

imgingroot commented 1 year ago

是的，现在大家越来越发现，数据quality要远比size重要。好的词表，本质也是在提升数据质量。当然扩充词表确实比较麻烦，不确定性也很高。我觉得pandallm线路方向很好，整理出一份好的数据集，用一套框架可以适配到不同的基础开源模型。我建议这个数据集最好是包括一部分平行语料的形式，类似中英文双语，来源可以收集，也可以用其他模型来做翻译生成。另外随着数据集增大，还是需要考虑词表。数据量大了，从零开始训练也没什么，因为有前面的平行语料，从英文语料训练出来的能力也能比较好的迁移到中文中。

Bosheng2020 commented 1 year ago

非常感谢您的宝贵建议我们会在后续版本进行调整

DaoD commented 1 year ago

想问一下，是否在验证集上观察到了过拟合现象？看起来训练数据量很小，对于语言模型而言可能很容易过拟合

SparkJiao commented 1 year ago

想问一下，是否在验证集上观察到了过拟合现象？看起来训练数据量很小，对于语言模型而言可能很容易过拟合

首先我们没有用数据集的验证集训练，应该也没有污染现象，所以应该不存在在验证集上过拟合的情况，且中文迁移预训练阶段的学习率相当小，所以只有可能在COIG上过拟合；README里放了不同instruction tuning step对应的checkpoint在C3和LogiQA-v2上的结果，目前还没有观察到饱和的现象。但依然不建议在小数据集上训练过久。

dandelionsllm / pandallm

很值得期待的新项目，加油。 #7