특수문자 전처리 실험 결과 (2023/04/18)

raw한 텍스트로 학습을 진행했을 때보다 특수문자를 공백으로 전처리하는 것이 성능이 잘 나왔어서, 특수문자 전처리 코드 공유합니다.

text = '[SEP]'.join([re.sub(r'([^\w\s])+', ' ',item[text_column]) for text_column in self.text_columns])

기존 skeleton 코드에서 tokenizing 부분의 text 줄을 위와 같이 바꿔주면 됩니다.

boostcamp-5th-NLP05 / level1_semantictextsimilarity-nlp-05