Closed RDXSun closed 8 months ago
当合并 LM&Math&Code 三个任务时,如论文中所述,我们分别尝试了average_merging和task_arithmetic两类方法,并取较好的结果作为最终指标。这两个方法的运行命令分别为
python merge_llms_instruct_math_code.py --merge_instruct --merge_math --merge_code --merging_method_name average_merging --tensor_parallel_size 1
和
python merge_llms_instruct_math_code.py --merge_instruct --merge_math --merge_code --merging_method_name task_arithmetic --scaling_coefficient 1.0 --tensor_parallel_size 1
我们在论文中也报告了上述两种方法使用DARE时的最优表现,运行命令分别为
python merge_llms_instruct_math_code.py --merge_instruct --merge_math --merge_code --merging_method_name mask_merging --use_weight_rescale --weight_mask_rate 0.5 --mask_apply_method average_merging --tensor_parallel_size 1
和
python merge_llms_instruct_math_code.py --merge_instruct --merge_math --merge_code --merging_method_name mask_merging --use_weight_rescale --weight_mask_rate 0.1 --mask_apply_method task_arithmetic --scaling_coefficient 1.0 --tensor_parallel_size 1
我跑了最后一条命令,得到的gsm8k的正确率也只有 python merge_llms_instruct_math_code.py --merge_instruct --merge_math --merge_code --merging_method_name mask_merging --use_weight_rescale --weight_mask_rate 0.1 --mask_apply_method task_arithmetic --scaling_coefficient 1.0 --tensor_parallel_size 1
这个issue先关闭了哈。
如果后续有问题可以随时重启这个issue。
CUDA_VISIBLE_DEVICES=1,2 nohup python merge_llms_instruct_math_code.py --merge_instruct --merge_math --merge_code --merging_method_name task_arithmetic --use_task_arithmetic--wtight_mask_rate 0.2 --mask_apply_method task_arithmetic --tensor_parallel_size 1 &
我的指令是这个,测出来的gsm8k准确率为0.33813495072024263,是哪个参数不对