yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
3.03k stars 368 forks source link

chinese bloom的默认padding side为什么改成了right #127

Open DZ9 opened 1 year ago

DZ9 commented 1 year ago

bloom默认的padding side是left,为什么在Chinese bloom系列里面,默认的padding side都改成了right?如果我改回left去训练,会对模型造成影响吗?

{
   "add_prefix_space": false,
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "model_max_length": 2048,
   "pad_token": "<pad>",
   "padding_side": "right",
   "tokenizer_class": "BloomTokenizer",
   "unk_token": "<unk>"
   }

chinese_bloom_7b_chat_v3

yuanzhoulvpi2017 commented 1 year ago

本质上就是为了控制文本长度:保证padding_sidetruncation_side相同侧就行了。

基本上不影响效果,因为填充的,在训练的时候,都会被ignore掉(用-100忽略) 具体可以参考这个链接https://huggingface.co/docs/transformers/main_classes/tokenizer#transformers.PreTrainedTokenizer.padding_side