Open lyravv opened 4 months ago
您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中
我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练(或者说退火阶段)数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下,仅使用llama3的bos token也有非常大的概率生成问答对。
我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题!
之前也发现有些时候生成instruction的时候捕捉不到<|eot_id|>
,可能确实有一部分指令数据来自于退火!
@lyravv 但是使用一些没有post train的模型 比如tinyllama,他同样会这样
虽然llama-3-instruct模型是自回归模型,但其在sft和偏好对齐阶段训练时候,prompts是被mask掉的,不参与loss计算的。为什么给了前置template会自动产生prompts?