ssbuild / chatglm_finetuning

chatglm 6b finetuning and alpaca finetuning
1.54k stars 176 forks source link

大佬好,请问下数据构造中的特殊token #208

Open IamRoBota opened 1 year ago

IamRoBota commented 1 year ago

看到在TokenTruncation.process()中构造input_ids时,拼完a和b之后,在句尾添加了两个Screenshot 2023-04-29 at 23 21 50

请问: 1.为什么需要两个呢,一个会怎么样? 2.如果我在句子a中需要一个特殊token来分隔一下a中的上下两句,请问选哪个好一些呢?我看ChatGLM tokenizer的特殊token只有\<eop> \<pad> \<sop> \<unk>和[MASK]

感谢🙏

ssbuild commented 1 year ago

一个两个都可以,只是加强下结束符。

IamRoBota commented 1 year ago

一个

谢谢大佬,那请问第二个问题呢?不用换行符的话,更好一点吗?