bytedance / lightseq

LightSeq: A High Performance Library for Sequence Processing and Generation
Other
3.22k stars 329 forks source link

关于wmt14 en2de数据集的问题 #483

Closed MeJerry215 closed 1 year ago

MeJerry215 commented 1 year ago

我想要使用的时en2fr模型,但是我发现ls 的脚本ls_fairseq_wmt14en2de.sh下载的数据集包含了如下文件:

dict.de.txt        test.en-de.en.bin   train.en-de.en.idx
dict.en.txt        test.en-de.en.idx   valid.en-de.de.bin
preprocess.log     train.en-de.de.bin  valid.en-de.de.idx
test.en-de.de.bin  train.en-de.de.idx  valid.en-de.en.bin
test.en-de.de.idx  train.en-de.en.bin  valid.en-de.en.idx      

而我使用fairseq的官方脚本 prepare-wmt14en2fr.sh 产生的wmt14en2fr的数据包含了如下数据:

wmt14_en_fr:
code  test.en  test.fr  tmp  train.en  train.fr  valid.en  valid.fr

wmt14_en_fr/tmp:
bpe.test.en  bpe.train.en  bpe.valid.en  test.en  train.en  train.fr-en              train.tags.en-fr.tok.fr  valid.fr
bpe.test.fr  bpe.train.fr  bpe.valid.fr  test.fr  train.fr  train.tags.en-fr.tok.en  valid.en

所以我的知道这个数据是如何对应的?以及idx文件是如何产生的? Thx