model use left-padding or right-padding ??

THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

Apache License 2.0

4.1k stars 418 forks source link

model use left-padding or right-padding ?? #27

Closed iamsile closed 1 year ago

iamsile commented 1 year ago

您好，请问VisualGLM-6B在训练时用的是left-padding还是right-padding，我在用VisualGLM-6B训练reward model时，会报assert divergence_ind >0的错误，打印信息时发现divergence_ind[0]，我去deepspeed上查了一下，说是模型padding导致的，所以想咨询一下，VisualGLM-6B是left-padding还是right-padding

期待您的回复

Sleepychord commented 1 year ago

文本部分是right padding

iamsile commented 1 year ago

好的，感谢感谢