boostcamp-5th-NLP05 / level1_semantictextsimilarity-nlp-05

0 stars 0 forks source link

불용어 제거 실험 (2023/04/18) #5

Open yunjinchoidev opened 1 year ago

yunjinchoidev commented 1 year ago

[JLake310] 테스트 해보면 좋을 것 같습니다!

yunjinchoidev commented 1 year ago

[Da-Hye-JUNG]

train.py 77번째 줄에 추가하시면 됩니다! csv파일은 slack에 올려놨습니다.


    def tokenizing(self, dataframe):
        stopword2 = pd.read_csv('../data/stopword_list.csv', header = None)
        stopword1 = ['도', '들', '이', '~', '가', '해주세요', '.', '으로', '!!', '..', '은', '요', '입니다', '!', '그', '의', '너무', '만', '에', '로', '는', '에서', '을', '?', '이런', '정말', '것', '와', '진짜', '게', 'ㅎㅎ', '하는', '를', '에게', '하고', '주세요', ',', '적', '할', '수', '중', '(', ')', '까지', '또', '및', 'ㅋㅋ', '....', '합니다', '지', '좀', 'ㅋㅋㅋ', '다', "'", '아', '<', 'PERSON', '>', '님', '과', '!!!', '고', '인', '...', '더', '거', '번']
        stopwords = stopword1 + list(stopword2[0])
        stopwords = list(set(stopwords)) #중복제거

        new_sentence1 = []
        for text in dataframe['sentence_1']:
            # 비어있는 데이터에서 멈추지 않도록 문자열인 경우에만 진행
            if type(text)==str:
                spacing_text = spacing(text)
                word = okt.morphs(spacing_text)
                new_word = [token for token in word if not token in stopwords]  
                new_sentence1.append(' '.join(new_word))
            else:
                new_sentence1.append(' ')
        dataframe['sentence_1'] = new_sentence1

        new_sentence2 = []
        for text in dataframe['sentence_2']:
            # 비어있는 데이터에서 멈추지 않도록 문자열인 경우에만 진행
            if type(text)==str:
                spacing_text = spacing(text)
                word = okt.morphs(spacing_text)
                new_word = [token for token in word if not token in stopwords]  
                new_sentence2.append(' '.join(new_word))
            else:
                new_sentence2.append(' ')
        dataframe['sentence_2'] = new_sentence2