Tại sao không tách cặp question-answer khi train model

Em chào mọi người, gần đây em có tận dụng code này và code alpaca-lora gốc để thực hiện instruction fine-tuning cho GPT-J 6B của VietAI. Tuy nhiên em đọc code em thấy có một phần khá lạ, code này và code alpaca-lora đều đưa cả triplet instruction-input-output vào model luôn (input_ids và labels giống nhau) thay vì tách ra instruction-input và output riêng.

from prompt import make_prompt
def generate_prompt(data_point):
    question = data_point["prompt"].strip()
    answer = data_point["response"].strip()
    return f"{make_prompt(question)}\n{answer}"

Em đã thực hiện train model theo kiểu đưa cả 3 vào, nhưng lúc inference hoàn toàn không sử dụng được khi chỉ đưa instruction-input, em đã thử đưa cả instruction-input-output vào và đương nhiên nó sẽ predict ra giống hệt. Nhưng điều này hoàn toàn vô nghĩa khi mình không có output trước.

Mong các anh giải thích giúp em ạ.

telexyz / GPT4VN

Tại sao không tách cặp question-answer khi train model #12