Open yunjinchoidev opened 1 year ago
[Da-Hye-JUNG]
train.py 77번째 줄에 추가하시면 됩니다! csv파일은 slack에 올려놨습니다.
def tokenizing(self, dataframe):
stopword2 = pd.read_csv('../data/stopword_list.csv', header = None)
stopword1 = ['도', '들', '이', '~', '가', '해주세요', '.', '으로', '!!', '..', '은', '요', '입니다', '!', '그', '의', '너무', '만', '에', '로', '는', '에서', '을', '?', '이런', '정말', '것', '와', '진짜', '게', 'ㅎㅎ', '하는', '를', '에게', '하고', '주세요', ',', '적', '할', '수', '중', '(', ')', '까지', '또', '및', 'ㅋㅋ', '....', '합니다', '지', '좀', 'ㅋㅋㅋ', '다', "'", '아', '<', 'PERSON', '>', '님', '과', '!!!', '고', '인', '...', '더', '거', '번']
stopwords = stopword1 + list(stopword2[0])
stopwords = list(set(stopwords)) #중복제거
new_sentence1 = []
for text in dataframe['sentence_1']:
# 비어있는 데이터에서 멈추지 않도록 문자열인 경우에만 진행
if type(text)==str:
spacing_text = spacing(text)
word = okt.morphs(spacing_text)
new_word = [token for token in word if not token in stopwords]
new_sentence1.append(' '.join(new_word))
else:
new_sentence1.append(' ')
dataframe['sentence_1'] = new_sentence1
new_sentence2 = []
for text in dataframe['sentence_2']:
# 비어있는 데이터에서 멈추지 않도록 문자열인 경우에만 진행
if type(text)==str:
spacing_text = spacing(text)
word = okt.morphs(spacing_text)
new_word = [token for token in word if not token in stopwords]
new_sentence2.append(' '.join(new_word))
else:
new_sentence2.append(' ')
dataframe['sentence_2'] = new_sentence2
[JLake310] 테스트 해보면 좋을 것 같습니다!