ymaoj / Tibetan-Llama2-Tibetan-Alpaca

基于LLAMA2的增量预训练藏文大语言模型Tibetan-LLAMA2-7B&Tibetan-LLAMA2-13B;指令微调藏文大模型Tibetan-Alpaca-7B&Tibetan-Alpaca-13B。
Apache License 2.0
19 stars 4 forks source link

大佬,想问下这个tokenizer是怎么实现的啊! #3

Closed dojeee closed 2 weeks ago

ymaoj commented 4 months ago

您好,主要是在藏文纯文本数据上通过SentencePiece技术训练藏文分词器,随后将藏文分词器合并到原始的Llama2分词器中。

dojeee commented 3 months ago

感谢感谢。