Open wj-Mcat opened 2 months ago
预训练包含不同来源的数据,那不同数据之间可能会产生:相互增益、相互冲突甚至毫不相干的关系,此时如何评估不同数据之间对模型效果的影响,如何调整不同数据之间的配比进而平衡好各领域的能力,如何让避免冲突数据且让相关数据相互增益进而激发模型最大的能力。
问题定义、实验内容都不始很详细,比如如何判断不同数据之间是否存在冲突或相互增益就没说清楚。
关于这篇论文,大家只需要知道一个重点:数据配比很重要。
结论:Unknown 的数据对于LLM原本自带的能力是有损害的,数据越多对模型原有能力的损害会越大。
Doremi: Optimizing data mixtures speeds up language model pretraining
An empirical study of catastrophic forgetting in large language models during continual fine-tuning
数据分布非常广
LLM 的相关能力都是需要定向构建数据才会有相关的能力。
当然,会具备一定的涌现能力,可是如果在这个领域里稍加数据引导,涌现之后的能力将会变得更强。
为了研究不同训练数据类别和配比对于训练效果的影响,作者开发了一个 低成本数据混合策略,用来验证不同数据配比对模型效果的影响。
Pile和ROOTS 数据集都是认为规定了数据分布范围和比例。 GLaM:人为规定了数据集的分布范围和比例,可是没有揭露太多细节。 DoReMi [50] and DoGE [15]: 提出一种基于训练的方式来优化不同数据配比:模型训练完之后的效果是否有变得更好。
proposed learning-based methods to optimize domain proportions by iterating between training reference and proxy models
[8.22-8.30] 这段时间想研究这个子方向