cheneydon / efficient-bert

This repository contains the code for the paper in Findings of EMNLP 2021: "EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation".
32 stars 4 forks source link

在"bash create_pretrain_data.sh"那一步找不到文件wikipedia_en_format.txt #2

Closed QyDing02 closed 2 years ago

QyDing02 commented 2 years ago

我对bash create_pretrain_data.sh这个文件有些疑问。

在这个文件里, text_formatting.py的输出保存到了./dataset/pretrain_data/format_data/wikicorpus_en_format.txt,而create_data.py的输入是wikipedia_en_format.txt,这里是否存在命名的问题? 我运行到python pretrain_data_scripts/create_data.py \--train_corpus $FORMAT_WIKI_PATH \--output_dir $WIKI_SAVE_DIR --vocab_path $VOCAB_PATH \--lowercase --epochs_to_generate 5 \--max_seq_len 128 --max_predictions_per_seq 0这一段的时候,都会报错,找不到wikipedia_en_format.txt文件

cheneydon commented 2 years ago

是的,之前忘记对text_formatting.py里面的输出文件名进行修改,把生成的文件名wikicorpus_xxx改成wikipedia_xxx即可。修改后的代码已经上传