boostcampaitech2 / mrc-level2-nlp-02

mrc-level2-nlp-02 created by GitHub Classroom
0 stars 6 forks source link

Train Retrieval #10

Closed sangHa0411 closed 3 years ago

sangHa0411 commented 3 years ago

주 구현내용 : Train Retrieval 이라는 Argument를 넣어주면서 BM25로 가져온 Context를 뒤로 붙이는 과정입니다.

예시 명령어

python train.py --do_train \
--dataset_name /opt/ml/data/train_dataset/  \
--output_dir ./Test/CustomRetrieval/  \
--overwrite_output_dir --preprocessing_pattern 1 \
--overwrite_cache \
--train_retrieval \
--add_special_tokens_flag \
--per_device_train_batch_size 16 \
--customized_tokenizer_flag \
--tokenizer_name qa_tokenizer \
--data_selected question_answer 

수정 부분

sangHa0411 commented 3 years ago

add_special_tokens_flag를 안주게 되면 공백을 넣어주면서 Context를 이어 붙이게 됩니다. 반드시 이 인자를 넣어주어야 하는 것은 아닙니다.