issues
search
2020SWChallenge-MoAI
/
keyword-extraction
1
stars
0
forks
source link
키워드 추천 기능개선 방안
#7
Open
junbread
opened
4 years ago
junbread
commented
4 years ago
기존 알고리즘
문서 전처리(문장 분리 및 특수문자 제거)
형태소 분석
문서의 모든 문장을 합쳐서 TFIDF 분석, 주요 키워드 뽑기
연관 키워드 추천
각 문장에서 쓰인 단어 count를 vectorize
이후 cosine similarity 높은 순으로 문장 배열
해당 문장에 있는 다른 단어 추천
문제점
여러 형태소로 이루어진 복합 단어의 경우(또는 잘못 분석되었을 경우) 다른 단어로 인식, 추천 목록에 따로 뜸 (예: 아이들->아이들, 아이)
현재 명사만 추천 가능
뜬금없는 단어들이 걸러지지 않음 (예: 이, 우, ...)
개선방안
형태소 분석을 그대로 TFIDF에 활용하지 말고, phrase를 살펴서 큰 덩어리로 넣자
phrase 분석은 현재 사용중인 Komoran 말고 Hannanum에서 제공중
단어 임베딩 -> 동의어 (철수, 철수가)를 가깝게, 중복 추천 방지
어떤 임베딩을 사용할지? 음절단위+위치정보로 임베딩하면 가능할듯. 아예 자모단위로..?
NER로 태깅된 단어를 우선 추천 (등장인물, 장소 추천 등에 사용)
등장인물/장소 등 시나리오별로 리스트 갖고 있다가 뽑아 줘야 할듯
서술형 문장에 가중치, 의미 있는 문장을 뽑아내기
어떻게?
phrase 분석을 통해서 동사구, 형용사구 찾아내기
서술형 문장인지, 등장인물의 대사인지 찾기? 어떻게??
SRL로 분석 가능한 문장이면 서술형이 아닐까?
기타 아이디어
문장 생성 방식으로 키워드 추천?
문맥 기반으로 키워드 추천해줄 경우 다음으로 유사 단어가 아니라 문장을 이루는 다른 성분이 오는 것이 자연스러움 (예: 점순이,놀리다->나)
junbread
commented
4 years ago
추천 시나리오
등장인물
NER로 등장인물/지명 등 추출
해당 엔티티가 등장한 문장만 필터링
구문분석 or SRL로 엔티티에 대한 속성 추출 (성격 등)
줄거리/사건
엔티티 등장 문장 중 동사구 추출
동사 원형복원
느낀점?
텍스트 감성분석? 가능한가?
연관 키워드 추천
TF-IDF 기반 추천 알고리즘 유지
단 완벽히 일치하지 않는 단어를 적을 경우에도 추천할 수 있게 음절단위 임베딩 등 생각해야..
junbread
commented
4 years ago
남은 문제들
[ ] 웅진 데이터셋 문장분리 제대로 안되는 경우 많음
기존 알고리즘
문제점
개선방안
기타 아이디어