Open jingmu123 opened 3 years ago
感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?
Hello, 我们用的是tokenized BLEU
感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?
Hello, 我们用的是tokenized BLEU
您好,我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外,想问一下为什么使用你们的模型,直接在官方测试集上测试(使用你们的BPE词典),部分结果也有较大差异呢?
感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?
Hello, 我们用的是tokenized BLEU
您好,我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外,想问一下为什么使用你们的模型,直接在官方测试集上测试(使用你们的BPE词典),部分结果也有较大差异呢?
测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗
感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?
Hello, 我们用的是tokenized BLEU
您好,我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外,想问一下为什么使用你们的模型,直接在官方测试集上测试(使用你们的BPE词典),部分结果也有较大差异呢?
测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗 您好,我使用如下脚本处理: fairseq-generate ${data_path}/bin \ --user-dir ${repo_dir} \ -s ${SRC} \ -t ${TGT} \ --skip-invalid-size-inputs-valid-test \ --beam 5 --batch-size 16 --max-len-a 0 --max-len-b 256 \ --path ${model_path}/en2gu_checkpoint.pt \ --task translation_w_langtok \ --lang-prefix-tok ${TGTK} \ --nbest 1 --remove-bpe | tee ${eval_path}/infer.txt
grep ^H ${eval_path}/infer.txt \ | sed 's/^H-//' \ | sort -V \ | cut -f 3 \ | sed 's/'${TGTK}' //g' \
${eval_path}/infer.sys
grep ^T ${eval_path}/infer.txt \ | sed 's/^T-//' \ | sort -V \ | cut -f 2 \ | sed 's/'${TGTK}' //g' \
${eval_path}/infer.ref
sacrebleu --tokenize 'none' -s 'none' -w 2 ${eval_path}/infer.ref < ${eval_path}/infer.sys
得到的en2gu的结果似乎只是2.98,有一点点提升,请问和fairseq原始的脚本增加了什么特殊处理吗,附上我之前测试的脚本
fairseq-generate ${data_path}/bin \
--path ${model_path}/${SRC}2${TGT}_checkpoint.pt \
--gen-subset test \
--skip-invalid-size-inputs-valid-test \
--nbest 1 \
--max-len-a ${max_len_a} \
--max-len-b ${max_len_b} \
--lenpen ${length_penalty} \
-s ${SRC} -t ${TGT} --batch-size 128 --beam 5 --remove-bpe | tee ${eval_path}/infer.txt
谢谢
我们没有设置-s 'none'
您好,fairseq-generate ${data_path}/bin 里面的data_path指的是哪个路径? 我这边调试了半天一直出问题
感谢公开!我们在复现en2gu结果时,发现与论文中的结果(bleu@3.2)有一些不同(尽管我们使用你们公开的checkpoints和测试集上,测的结果是2.58,可以看到仍然有轻微的不一致),请问这个语言对的测试有什么特殊的处理吗?