Open DZ9 opened 1 year ago
bloom默认的padding side是left,为什么在Chinese bloom系列里面,默认的padding side都改成了right?如果我改回left去训练,会对模型造成影响吗?
{ "add_prefix_space": false, "bos_token": "<s>", "clean_up_tokenization_spaces": false, "eos_token": "</s>", "model_max_length": 2048, "pad_token": "<pad>", "padding_side": "right", "tokenizer_class": "BloomTokenizer", "unk_token": "<unk>" }
chinese_bloom_7b_chat_v3
本质上就是为了控制文本长度:保证padding_side和truncation_side相同侧就行了。
padding_side
truncation_side
基本上不影响效果,因为填充的,在训练的时候,都会被ignore掉(用-100忽略) 具体可以参考这个链接https://huggingface.co/docs/transformers/main_classes/tokenizer#transformers.PreTrainedTokenizer.padding_side
bloom默认的padding side是left,为什么在Chinese bloom系列里面,默认的padding side都改成了right?如果我改回left去训练,会对模型造成影响吗?
chinese_bloom_7b_chat_v3