lovit / KR-WordRank

비지도학습 방법으로 한국어 텍스트에서 단어/키워드를 자동으로 추출하는 라이브러리입니다
Other
354 stars 57 forks source link

예시 데이터의 문장 앞부분에 "관람객" 이라는 단어가 반복적으로 등장 #5

Closed lovit closed 5 years ago

lovit commented 5 years ago

영화 '라라랜드'와 '엑스맨'의 데이터의 일부에 문장 맨 앞에 '관람객'이라는 단어가 반복적으로 등장하며, 데이터 수집 단계에서의 문제로 추정.

네이버 영화의 평점 시스템이 바뀌면서 "관람객"이라는 태그를 따로 부착할 수 있게 되었는데, 그 이후 수집된 데이터에 태그가 텍스트로 입력되었음.

lovit commented 5 years ago

각 문장의 맨 앞 부분에 '관람객'이 등장하면 이를 제거하는 방식으로 처리함.

def load(path):
    with open(path, encoding='utf-8') as f:
        docs = [doc.strip() for doc in f]
    return docs

def save(path, docs):
    with open(path, 'w', encoding='utf-8') as f:
        for doc in docs:
            f.write('{}\n'.format(doc))

def detach(docs):
    def normalize(doc):
        if doc[:3] == '관람객':
            return doc[3:]
        return doc
    docs = [normalize(doc) for doc in docs]
    return docs

from glob import glob
paths = glob('../data/*.txt')

for path in paths:
    docs = load(path)
    docs = detach(docs)
    save(path, docs)
lovit commented 5 years ago

fixed 45ece4c