Open stanpcf opened 1 year ago
train_group_size
最小应该为2
train_group_size
最小应该为2
复现BGE-i w.o. pre-train
这个模型应该为几呢。另外C-PACK论文里说这阶段只用了in-batch negative,所以我在这里设置的为1(意思是不在json的neg里面取负样本)
这部分数据的neg基本也是随机采样得到的,实验中我们train_group_size用的最小值2,没用试过train_group_size=1的情况。
train_group_size
最小应该为2
请问微调时,per_device_train_batch_size越大越好吗,尽量把显存打满?base/large模型是否都如此?
你好,我这边在尝试复现General purpose fine-tuning这个过程,但是效果不及预期,请教一下是否是一些参数设置不对: 复现(
BGE-i w.o. pre-train
)过程(配置32卡a100 80G)运行参数:
deepspeed config参数:
调参了bs和passage_max_len实验结果如下: Overall
我理解我的实验是对齐
BGE-i w.o. pre-train
这个指标(avg=58.62),从迭代过程中看指标离58.62很远(比如p_max_len为512的第一个dump模型指标是55.49,该模型过了10%数据;最后的dump模型指标才57.13)。