结果复现的问题 - Githubissues

jingmu123 commented 3 years ago

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

PANXiao1994 commented 3 years ago

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

jingmu123 commented 3 years ago

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

您好，我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外，想问一下为什么使用你们的模型，直接在官方测试集上测试（使用你们的BPE词典），部分结果也有较大差异呢？

PANXiao1994 commented 3 years ago

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

您好，我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外，想问一下为什么使用你们的模型，直接在官方测试集上测试（使用你们的BPE词典），部分结果也有较大差异呢？

测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗

jingmu123 commented 3 years ago

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

您好，我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外，想问一下为什么使用你们的模型，直接在官方测试集上测试（使用你们的BPE词典），部分结果也有较大差异呢？

测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗您好，我使用如下脚本处理： fairseq-generate ${data_path}/bin \ --user-dir ${repo_dir} \ -s ${SRC} \ -t ${TGT} \ --skip-invalid-size-inputs-valid-test \ --beam 5 --batch-size 16 --max-len-a 0 --max-len-b 256 \ --path ${model_path}/en2gu_checkpoint.pt \ --task translation_w_langtok \ --lang-prefix-tok ${TGTK} \ --nbest 1 --remove-bpe | tee ${eval_path}/infer.txt

grep ^H ${eval_path}/infer.txt \ | sed 's/^H-//' \ | sort -V \ | cut -f 3 \ | sed 's/'${TGTK}' //g' \

${eval_path}/infer.sys

grep ^T ${eval_path}/infer.txt \ | sed 's/^T-//' \ | sort -V \ | cut -f 2 \ | sed 's/'${TGTK}' //g' \

${eval_path}/infer.ref

sacrebleu --tokenize 'none' -s 'none' -w 2 ${eval_path}/infer.ref < ${eval_path}/infer.sys

得到的en2gu的结果似乎只是2.98，有一点点提升，请问和fairseq原始的脚本增加了什么特殊处理吗，附上我之前测试的脚本 fairseq-generate ${data_path}/bin \ --path ${model_path}/${SRC}2${TGT}_checkpoint.pt \ --gen-subset test \ --skip-invalid-size-inputs-valid-test \ --nbest 1 \ --max-len-a ${max_len_a} \ --max-len-b ${max_len_b} \ --lenpen ${length_penalty} \
-s ${SRC} -t ${TGT} --batch-size 128 --beam 5 --remove-bpe | tee ${eval_path}/infer.txt

谢谢

PANXiao1994 commented 3 years ago

我们没有设置-s 'none'

q178 commented 3 years ago

您好，fairseq-generate ${data_path}/bin 里面的data_path指的是哪个路径？我这边调试了半天一直出问题

linzehui / mRASP

结果复现的问题 #12