Closed ZenXir closed 1 year ago
您好,我也关注了这个项目,请问您是怎么和本项目结合起来使用的呢?
@ZenXir llama词表扩充的相关问题可以参照这个issue
我们现在多轮对话的效果在一定的任务场景下还是可以的,参见performance
不过对llama进行中文词表扩充的好处是,在编码中文效率上变高,能记忆、生成更多的中文词汇。训练embedding多少也是会对模型有点影响的(增加各种1对1的token),可能会一定程度破坏其非中文的能力,但如果训练好了也是很有前景的,我们同样也期待相关项目在词表上的扩充(预训练这一块需要吃比较多的机器以及数据集)
@Facico 大佬您好,请问本项目会增加 embedding 的训练吗?
@Evilran 暂时不会,我们缺乏一定的资源去做相关的预训练任务。不过我们会考虑引入相关的开源的扩充llama词表的项目。
预训练阶段,在原版LLaMA权重的基础上进行预训练 分为两个阶段:
第一阶段:固定模型transformer部分的参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量。 目的:适配新增中文词表的词向量学习,以进一步提升基本的中文语义能力。 第二阶段:使用LoRA技术,为模型添加LoRA权重(adapter),训练embedding的同时也更新LoRA参数。
这个是我是这个仓库里看到的 https://github.com/ymcui/Chinese-LLaMA-Alpaca, 也测试了下,量化成4bit后测试效果是这样的(虽然有问题,但相比在语病,和多轮对话上有明显进步):