Closed MeJerry215 closed 1 year ago
我想要使用的时en2fr模型,但是我发现ls 的脚本ls_fairseq_wmt14en2de.sh下载的数据集包含了如下文件:
ls_fairseq_wmt14en2de.sh
dict.de.txt test.en-de.en.bin train.en-de.en.idx dict.en.txt test.en-de.en.idx valid.en-de.de.bin preprocess.log train.en-de.de.bin valid.en-de.de.idx test.en-de.de.bin train.en-de.de.idx valid.en-de.en.bin test.en-de.de.idx train.en-de.en.bin valid.en-de.en.idx
而我使用fairseq的官方脚本 prepare-wmt14en2fr.sh 产生的wmt14en2fr的数据包含了如下数据:
prepare-wmt14en2fr.sh
wmt14_en_fr: code test.en test.fr tmp train.en train.fr valid.en valid.fr wmt14_en_fr/tmp: bpe.test.en bpe.train.en bpe.valid.en test.en train.en train.fr-en train.tags.en-fr.tok.fr valid.fr bpe.test.fr bpe.train.fr bpe.valid.fr test.fr train.fr train.tags.en-fr.tok.en valid.en
所以我的知道这个数据是如何对应的?以及idx文件是如何产生的? Thx
我想要使用的时en2fr模型,但是我发现ls 的脚本
ls_fairseq_wmt14en2de.sh
下载的数据集包含了如下文件:而我使用fairseq的官方脚本
prepare-wmt14en2fr.sh
产生的wmt14en2fr的数据包含了如下数据:所以我的知道这个数据是如何对应的?以及idx文件是如何产生的? Thx