chaoyi-wu / PMC-LLaMA

The official codes for "PMC-LLaMA: Towards Building Open-source Language Models for Medicine"
549 stars 52 forks source link

How to expand English vocabulary in llama tokenizer? #25

Open ClinuxMDL opened 6 months ago

ClinuxMDL commented 6 months ago

感谢作者的有帮助性的工作。想问一下在模型预训练阶段的一些问题: 1、针对生物或医学类的词汇,如何扩充到现有的llama词汇表中? 2、重新制作目前新语料的tokens会带来更好的loss收益么? 3、我试着用目前的预料切了一下生物类的专业词汇,看起来切得比较散,不知道您有没有注意到这一点。4、我发现在训练过程中1个epoch下来loss降得有限,后面必须要多个epoch的loss才能降下来,这样的话无疑增加了很多训练时间? 5、预训练的loss一般需要达到多少是比较能够往SFT继续走的水平?

期待作者的回复,感谢!