linzehui / mRASP

165 stars 32 forks source link

结果复现的问题 #12

Open jingmu123 opened 3 years ago

jingmu123 commented 3 years ago

感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?

PANXiao1994 commented 3 years ago

感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?

Hello, 我们用的是tokenized BLEU

jingmu123 commented 3 years ago

感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?

Hello, 我们用的是tokenized BLEU

您好,我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外,想问一下为什么使用你们的模型,直接在官方测试集上测试(使用你们的BPE词典),部分结果也有较大差异呢?

PANXiao1994 commented 3 years ago

感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?

Hello, 我们用的是tokenized BLEU

您好,我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外,想问一下为什么使用你们的模型,直接在官方测试集上测试(使用你们的BPE词典),部分结果也有较大差异呢?

测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗

jingmu123 commented 3 years ago

感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?

Hello, 我们用的是tokenized BLEU

您好,我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外,想问一下为什么使用你们的模型,直接在官方测试集上测试(使用你们的BPE词典),部分结果也有较大差异呢?

测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗 您好,我使用如下脚本处理: fairseq-generate ${data_path}/bin \ --user-dir ${repo_dir} \ -s ${SRC} \ -t ${TGT} \ --skip-invalid-size-inputs-valid-test \ --beam 5 --batch-size 16 --max-len-a 0 --max-len-b 256 \ --path ${model_path}/en2gu_checkpoint.pt \ --task translation_w_langtok \ --lang-prefix-tok ${TGTK} \ --nbest 1 --remove-bpe | tee ${eval_path}/infer.txt

grep ^H ${eval_path}/infer.txt \ | sed 's/^H-//' \ | sort -V \ | cut -f 3 \ | sed 's/'${TGTK}' //g' \

${eval_path}/infer.sys

grep ^T ${eval_path}/infer.txt \ | sed 's/^T-//' \ | sort -V \ | cut -f 2 \ | sed 's/'${TGTK}' //g' \

${eval_path}/infer.ref

sacrebleu --tokenize 'none' -s 'none' -w 2 ${eval_path}/infer.ref < ${eval_path}/infer.sys

得到的en2gu的结果似乎只是2.98,有一点点提升,请问和fairseq原始的脚本增加了什么特殊处理吗,附上我之前测试的脚本 fairseq-generate ${data_path}/bin \ --path ${model_path}/${SRC}2${TGT}_checkpoint.pt \ --gen-subset test \ --skip-invalid-size-inputs-valid-test \ --nbest 1 \ --max-len-a ${max_len_a} \ --max-len-b ${max_len_b} \ --lenpen ${length_penalty} \
-s ${SRC} -t ${TGT} --batch-size 128 --beam 5 --remove-bpe | tee ${eval_path}/infer.txt

谢谢

PANXiao1994 commented 3 years ago

我们没有设置-s 'none'

q178 commented 3 years ago

您好,fairseq-generate ${data_path}/bin 里面的data_path指的是哪个路径? 我这边调试了半天一直出问题