Preprocess - Githubissues

boostcampaitech5 / level2_nlp_mrc-nlp-06

level2_nlp_mrc-nlp-06 created by GitHub Classroom

3 stars 3 forks source link

Preprocess #18

Closed i-mprovising closed 1 year ago

i-mprovising commented 1 year ago

train data의 context를 전처리합니다. 줄바꿈 기호와 # 기호를 제거하고 2개 이상의 공백이 붙어있을 경우 하나로 합치는 전처리입니다. train data의 context가 바뀜에 따라 answer start index도 바뀌므로 이것도 바꿔주는 코드가 포함되어 있습니다.

사용법

train.sh에 --preprocessing True로 할 경우 train data를 전처리하는 함수가 실행됩니다.

코드 변경 사항

utility.py에 data_preprocessing 함수가 추가되었습니다.
arguments.py에 preprocessing argument가 추가되었습니다.
train.py에 data_args.preprocessing에 따라 전처리 하는 코드 추가되었습니다.
train.sh에 preprocessing argument를 추가했습니다.