为何可以产生prompts

magpie-align / magpie

Official repository for "Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing". Your efficient and high-quality synthetic data generation pipeline!

https://magpie-align.github.io/

MIT License

476 stars 53 forks source link

为何可以产生prompts #10

Open lyravv opened 4 months ago

lyravv commented 4 months ago

虽然llama-3-instruct模型是自回归模型，但其在sft和偏好对齐阶段训练时候，prompts是被mask掉的，不参与loss计算的。为什么给了前置template会自动产生prompts？

zhangchen-xu commented 4 months ago

您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中

lyravv commented 4 months ago

我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练（或者说退火阶段）数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下，仅使用llama3的bos token也有非常大的概率生成问答对。

zhangchen-xu commented 4 months ago

我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题！之前也发现有些时候生成instruction的时候捕捉不到<|eot_id|>，可能确实有一部分指令数据来自于退火！

eyuansu62 commented 3 months ago

@lyravv 但是使用一些没有post train的模型比如tinyllama，他同样会这样