train data의 context를 전처리합니다. 줄바꿈 기호와 # 기호를 제거하고 2개 이상의 공백이 붙어있을 경우 하나로 합치는 전처리입니다. train data의 context가 바뀜에 따라 answer start index도 바뀌므로 이것도 바꿔주는 코드가 포함되어 있습니다.
사용법
train.sh에 --preprocessing True로 할 경우 train data를 전처리하는 함수가 실행됩니다.
코드 변경 사항
utility.py에 data_preprocessing 함수가 추가되었습니다.
arguments.py에 preprocessing argument가 추가되었습니다.
train.py에 data_args.preprocessing에 따라 전처리 하는 코드 추가되었습니다.
train data의 context를 전처리합니다. 줄바꿈 기호와 # 기호를 제거하고 2개 이상의 공백이 붙어있을 경우 하나로 합치는 전처리입니다. train data의 context가 바뀜에 따라 answer start index도 바뀌므로 이것도 바꿔주는 코드가 포함되어 있습니다.
사용법
train.sh
에--preprocessing True
로 할 경우 train data를 전처리하는 함수가 실행됩니다.코드 변경 사항
utility.py
에data_preprocessing
함수가 추가되었습니다.arguments.py
에 preprocessing argument가 추가되었습니다.train.py
에data_args.preprocessing
에 따라 전처리 하는 코드 추가되었습니다.train.sh
에 preprocessing argument를 추가했습니다.