Closed wujianqiangwjq closed 8 months ago
其他预训练llama2数据处理, encode的数据直接是labels: data["labels"] = data["input_ids"].clone() 我们这里数据处理是PretokDataset里面: x = chunk[:-1] y = chunk[1:] yield x, y 这两者有什么区别吗? PretokDataset 改成以下有什么影响: yield chunk,chunk
我明白了,transformers 里面的clm模型在forward会做类似x = chunk[:-1], y = chunk[1:]的动作,所有它喂给模型的数据是(X,X)
其他预训练llama2数据处理, encode的数据直接是labels: data["labels"] = data["input_ids"].clone() 我们这里数据处理是PretokDataset里面: x = chunk[:-1] y = chunk[1:] yield x, y 这两者有什么区别吗? PretokDataset 改成以下有什么影响: yield chunk,chunk