Open DunZhang opened 1 year ago
同问,没搞懂attention mask要怎么处理
对 attention mask 做了下更新,可以参考最新的分支代码: https://github.com/mymusise/ChatGLM-Tuning/blob/update_mask/finetune.py#L58
把label设置成-100的目的是为啥?lora微调的做法是让模型的的前一个token能够预测出下一个token么?是这样的话,总感觉input_ids和labels对应关系错位了啊
源代码如下:
疑问1:这里的attention mask不应该是下三角或者unilm那种吗? 疑问2:这里的labels不需要把一部分设置为-100吗?