Open yunjinchoidev opened 1 year ago
raw한 텍스트로 학습을 진행했을 때보다 특수문자를 공백으로 전처리하는 것이 성능이 잘 나왔어서, 특수문자 전처리 코드 공유합니다.
text = '[SEP]'.join([re.sub(r'([^\w\s])+', ' ',item[text_column]) for text_column in self.text_columns])
기존 skeleton 코드에서 tokenizing 부분의 text 줄을 위와 같이 바꿔주면 됩니다.
raw한 텍스트로 학습을 진행했을 때보다 특수문자를 공백으로 전처리하는 것이 성능이 잘 나왔어서, 특수문자 전처리 코드 공유합니다.
기존 skeleton 코드에서 tokenizing 부분의 text 줄을 위와 같이 바꿔주면 됩니다.