Closed lovit closed 5 years ago
각 문장의 맨 앞 부분에 '관람객'이 등장하면 이를 제거하는 방식으로 처리함.
def load(path):
with open(path, encoding='utf-8') as f:
docs = [doc.strip() for doc in f]
return docs
def save(path, docs):
with open(path, 'w', encoding='utf-8') as f:
for doc in docs:
f.write('{}\n'.format(doc))
def detach(docs):
def normalize(doc):
if doc[:3] == '관람객':
return doc[3:]
return doc
docs = [normalize(doc) for doc in docs]
return docs
from glob import glob
paths = glob('../data/*.txt')
for path in paths:
docs = load(path)
docs = detach(docs)
save(path, docs)
영화 '라라랜드'와 '엑스맨'의 데이터의 일부에 문장 맨 앞에 '관람객'이라는 단어가 반복적으로 등장하며, 데이터 수집 단계에서의 문제로 추정.
네이버 영화의 평점 시스템이 바뀌면서 "관람객"이라는 태그를 따로 부착할 수 있게 되었는데, 그 이후 수집된 데이터에 태그가 텍스트로 입력되었음.