Open LianShuQuan opened 1 week ago
Hi,
我有一个问题,就是table1的结果的merging超参数每一种方法是否都是不一样的,例如instruct和math融合的最优超参数和instruct和code的超参数不一样
我有一个问题,就是table1的结果的merging超参数每一种方法是否都是不一样的,例如instruct和math融合的最优超参数和instruct和code的超参数不一样
是的,不同的merging任务的参数设置不同。例如,对于average_merging方法,instruct和math融合的weight_mask_rate为0.6,instruct和code融合的weight_mask_rate为0.4,math和code融合的weight_mask_rate为0.9。
您好,我有以下几个疑问: