大佬，想问下这个tokenizer是怎么实现的啊！

ymaoj / Tibetan-Llama2-Tibetan-Alpaca

基于LLAMA2的增量预训练藏文大语言模型Tibetan-LLAMA2-7B&Tibetan-LLAMA2-13B；指令微调藏文大模型Tibetan-Alpaca-7B&Tibetan-Alpaca-13B。

Apache License 2.0

19 stars 4 forks source link

Closed dojeee closed 2 weeks ago

ymaoj commented 4 months ago

您好，主要是在藏文纯文本数据上通过SentencePiece技术训练藏文分词器，随后将藏文分词器合并到原始的Llama2分词器中。

dojeee commented 3 months ago

感谢感谢。