Closed weiaicunzai closed 1 week ago
请教一下,为啥构造数据的时候,要把question和answer concat到一起呢?这样输入进网络的话,网络不就知道了应该输出什么吗?感谢。
input_ids = torch.concat( [ q_input_ids, a_input_ids, torch.tensor(self.processor.tokenizer.eos_token_id).reshape(1, -1), ], axis=1, )
来自: https://github.com/yuanzhoulvpi2017/zero_nlp/blob/main/train_llava/train_llava/data.py#L108
还是next token prediction的方式
哈哈哈哈,看来你懂了奥~这玩意和sft一样的
请教一下,为啥构造数据的时候,要把question和answer concat到一起呢?这样输入进网络的话,网络不就知道了应该输出什么吗?感谢。
来自: https://github.com/yuanzhoulvpi2017/zero_nlp/blob/main/train_llava/train_llava/data.py#L108