bilibili / Index-1.9B

A SOTA lightweight multilingual LLM
Apache License 2.0
811 stars 44 forks source link

Index-1.9B-Pure从结果来看并不比base效果好? #1

Open datalee opened 3 months ago

datalee commented 3 months ago

会是什么原因?高质量数据不行?

mayokaze commented 3 months ago

因为去除了指令数据导致刷题能力下降了,我们后续也测试了基于pure和base分别训练1.9bchat模型,最终的评测结果差不多,base会略强一些,有趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。

datalee commented 3 months ago

趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。

有意思的结论

wlhgtc commented 2 months ago

@mayokaze
想请问一下关于某些代词的解释,下面的理解对吗:

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

mayokaze commented 2 months ago

@mayokaze 想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

base(有 WSD,有精选数据+指令数据) pure(有 WSD,有精选数据) 没有boost

为什么没有选择 pure的原因单纯是1.9B base train出来后续benchmark更高一点

wlhgtc commented 2 months ago

@mayokaze 想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

base(有 WSD,有精选数据+指令数据) pure(有 WSD,有精选数据) 没有 boost

为什么没有选择 pure 的原因单纯是 1.9B base train 出来后续 benchmark 更高一点

感谢您的答疑~ 刚又看了技术报告,确认了一下,「boost」应该是 来源于「index-1.9b-ablation-boost 」。 以及按照「我们后续也测试了基于 pure 和 base 分别训练 1.9bchat 模型,最终的评测结果差不多,base 会略强一些,有趣的是更大尺度的模型结论相反」 这里,是说 「加指令数据退火」的(大于 1.9B 的某个尺寸)模型在 sft 后表现反而不如「不加指令数据退火」的版本? 这个是否可以理解为:「加指令数据退火」提前释放了部分 SFT 潜力,把某些 SFT 阶段应有的提升前移了?

mayokaze commented 2 months ago

@mayokaze 想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

base(有 WSD,有精选数据+指令数据) pure(有 WSD,有精选数据) 没有 boost 为什么没有选择 pure 的原因单纯是 1.9B base train 出来后续 benchmark 更高一点

感谢您的答疑~ 刚又看了技术报告,确认了一下,「boost」应该是 来源于「index-1.9b-ablation-boost 」。 以及按照「我们后续也测试了基于 pure 和 base 分别训练 1.9bchat 模型,最终的评测结果差不多,base 会略强一些,有趣的是更大尺度的模型结论相反」 这里,是说 「加指令数据退火」的(大于 1.9B 的某个尺寸)模型在 sft 后表现反而不如「不加指令数据退火」的版本? 这个是否可以理解为:「加指令数据退火」提前释放了部分 SFT 潜力,把某些 SFT 阶段应有的提升前移了?

抱歉,技术报告里术语不是很严谨,导致了你的误解,我们后续会考虑写一个英文版的正式报告。 关于消融实验:消融实验的boost和pure不是最终release的版本(因为训练的tokens量不一样),这里的boost的数据配比是我们最终选择用做基线的配比。 关于pure和base/boost的后续sft实验:是的,可以这样理解,deepseekV1的技术报告也提出了类似的观点,他们选择sft阶段再加指令。我们的做法是以实验结果为准,最终我们的方案是decay阶段加指令,并且sft阶段也加了预训练数据(详见sft讨论),这样配置下来会比decay不加指令和sft只有指令要好,在我们已经探索过的几个模型尺度上都成立

nbcc commented 2 months ago

有趣,指令数据集会提升hellaswag (这里应该是0shot, ppl 的评估方式)。请教,具体来讲,是什么类型的指令数据对这个类型的会有价值呢?