magpie-align / magpie

Official repository for "Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing". Your efficient and high-quality synthetic data generation pipeline!
https://magpie-align.github.io/
MIT License
338 stars 34 forks source link

为何可以产生prompts #10

Open lyravv opened 1 month ago

lyravv commented 1 month ago

虽然llama-3-instruct模型是自回归模型,但其在sft和偏好对齐阶段训练时候,prompts是被mask掉的,不参与loss计算的。为什么给了前置template会自动产生prompts?

fly-dust commented 1 month ago

您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中

lyravv commented 1 month ago

我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练(或者说退火阶段)数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下,仅使用llama3的bos token也有非常大的概率生成问答对。

fly-dust commented 1 month ago

我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题! 之前也发现有些时候生成instruction的时候捕捉不到<|eot_id|>,可能确实有一部分指令数据来自于退火!

eyuansu62 commented 1 month ago

@lyravv 但是使用一些没有post train的模型 比如tinyllama,他同样会这样