Closed QyDing02 closed 2 years ago
我对bash create_pretrain_data.sh这个文件有些疑问。
bash create_pretrain_data.sh
在这个文件里, text_formatting.py的输出保存到了./dataset/pretrain_data/format_data/wikicorpus_en_format.txt,而create_data.py的输入是wikipedia_en_format.txt,这里是否存在命名的问题? 我运行到python pretrain_data_scripts/create_data.py \--train_corpus $FORMAT_WIKI_PATH \--output_dir $WIKI_SAVE_DIR --vocab_path $VOCAB_PATH \--lowercase --epochs_to_generate 5 \--max_seq_len 128 --max_predictions_per_seq 0这一段的时候,都会报错,找不到wikipedia_en_format.txt文件
text_formatting.py
./dataset/pretrain_data/format_data/wikicorpus_en_format.txt
create_data.py
wikipedia_en_format.txt
python pretrain_data_scripts/create_data.py \--train_corpus $FORMAT_WIKI_PATH \--output_dir $WIKI_SAVE_DIR --vocab_path $VOCAB_PATH \--lowercase --epochs_to_generate 5 \--max_seq_len 128 --max_predictions_per_seq 0
是的,之前忘记对text_formatting.py里面的输出文件名进行修改,把生成的文件名wikicorpus_xxx改成wikipedia_xxx即可。修改后的代码已经上传
wikicorpus_xxx
wikipedia_xxx
我对
bash create_pretrain_data.sh
这个文件有些疑问。在这个文件里,
text_formatting.py
的输出保存到了./dataset/pretrain_data/format_data/wikicorpus_en_format.txt
,而create_data.py
的输入是wikipedia_en_format.txt
,这里是否存在命名的问题? 我运行到python pretrain_data_scripts/create_data.py \--train_corpus $FORMAT_WIKI_PATH \--output_dir $WIKI_SAVE_DIR --vocab_path $VOCAB_PATH \--lowercase --epochs_to_generate 5 \--max_seq_len 128 --max_predictions_per_seq 0
这一段的时候,都会报错,找不到wikipedia_en_format.txt
文件