Index-1.9B-Pure从结果来看并不比base效果好？

datalee commented 3 months ago

会是什么原因？高质量数据不行？

mayokaze commented 3 months ago

因为去除了指令数据导致刷题能力下降了，我们后续也测试了基于pure和base分别训练1.9bchat模型，最终的评测结果差不多，base会略强一些，有趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。

datalee commented 3 months ago

趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。

有意思的结论

wlhgtc commented 2 months ago

@mayokaze
想请问一下关于某些代词的解释，下面的理解对吗：

base(有 WSD，无精选数据)
pure(有 WSD，有精选数据)
boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好，我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」，为什么没有选择 pure （boost 原因可以理解）作为后续的训练起点呢，是在大尺度模型上有什么其他结论吗？

mayokaze commented 2 months ago

@mayokaze 想请问一下关于某些代词的解释，下面的理解对吗：

base(有 WSD，无精选数据)

pure(有 WSD，有精选数据)

boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好，我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」，为什么没有选择 pure （boost 原因可以理解）作为后续的训练起点呢，是在大尺度模型上有什么其他结论吗？

base(有 WSD，有精选数据+指令数据) pure(有 WSD，有精选数据) 没有boost

为什么没有选择 pure的原因单纯是1.9B base train出来后续benchmark更高一点

wlhgtc commented 2 months ago

@mayokaze 想请问一下关于某些代词的解释，下面的理解对吗：

base(有 WSD，无精选数据)

pure(有 WSD，有精选数据)

boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好，我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」，为什么没有选择 pure （boost 原因可以理解）作为后续的训练起点呢，是在大尺度模型上有什么其他结论吗？

base(有 WSD，有精选数据+指令数据) pure(有 WSD，有精选数据) 没有 boost

为什么没有选择 pure 的原因单纯是 1.9B base train 出来后续 benchmark 更高一点

感谢您的答疑~ 刚又看了技术报告，确认了一下，「boost」应该是来源于「index-1.9b-ablation-boost 」。以及按照「我们后续也测试了基于 pure 和 base 分别训练 1.9bchat 模型，最终的评测结果差不多，base 会略强一些，有趣的是更大尺度的模型结论相反」这里，是说「加指令数据退火」的（大于 1.9B 的某个尺寸）模型在 sft 后表现反而不如「不加指令数据退火」的版本？这个是否可以理解为：「加指令数据退火」提前释放了部分 SFT 潜力，把某些 SFT 阶段应有的提升前移了？

mayokaze commented 2 months ago

@mayokaze 想请问一下关于某些代词的解释，下面的理解对吗：

base(有 WSD，无精选数据)

pure(有 WSD，有精选数据)

boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好，我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」，为什么没有选择 pure （boost 原因可以理解）作为后续的训练起点呢，是在大尺度模型上有什么其他结论吗？

base(有 WSD，有精选数据+指令数据) pure(有 WSD，有精选数据) 没有 boost 为什么没有选择 pure 的原因单纯是 1.9B base train 出来后续 benchmark 更高一点

感谢您的答疑~ 刚又看了技术报告，确认了一下，「boost」应该是来源于「index-1.9b-ablation-boost 」。以及按照「我们后续也测试了基于 pure 和 base 分别训练 1.9bchat 模型，最终的评测结果差不多，base 会略强一些，有趣的是更大尺度的模型结论相反」这里，是说「加指令数据退火」的（大于 1.9B 的某个尺寸）模型在 sft 后表现反而不如「不加指令数据退火」的版本？这个是否可以理解为：「加指令数据退火」提前释放了部分 SFT 潜力，把某些 SFT 阶段应有的提升前移了？

抱歉，技术报告里术语不是很严谨，导致了你的误解，我们后续会考虑写一个英文版的正式报告。关于消融实验：消融实验的boost和pure不是最终release的版本（因为训练的tokens量不一样），这里的boost的数据配比是我们最终选择用做基线的配比。关于pure和base/boost的后续sft实验：是的，可以这样理解，deepseekV1的技术报告也提出了类似的观点，他们选择sft阶段再加指令。我们的做法是以实验结果为准，最终我们的方案是decay阶段加指令，并且sft阶段也加了预训练数据(详见sft讨论)，这样配置下来会比decay不加指令和sft只有指令要好，在我们已经探索过的几个模型尺度上都成立

nbcc commented 2 months ago

有趣，指令数据集会提升hellaswag （这里应该是0shot, ppl 的评估方式）。请教，具体来讲，是什么类型的指令数据对这个类型的会有价值呢？

bilibili / Index-1.9B

Index-1.9B-Pure从结果来看并不比base效果好？ #1