theeluwin / textrankr

TextRank for Korean.
MIT License
210 stars 42 forks source link

문장내 주제를 찾지 못하는 것 같습니다. #3

Closed toomuchthink2016 closed 8 years ago

toomuchthink2016 commented 8 years ago

먼저, 엄청난 일을 시작하셨네요. 이 프로젝트를 지속적으로 지원합니다.

여러번 테스트를 했는데, 문장내 주제를 인식하는 알고리즘은 없는 것 같습니다. 알고리즘이 추가되면 좋겠다는 의견입니다.

Regards, toomuchthink2016.

theeluwin commented 8 years ago

이 라이브러리 자체는 텍스트랭크를 돌려주기만 합니다. 문장 내 주제라는걸 어떻게 정의해서 어떻게 알아내면 좋을까요?

simnalamburt commented 8 years ago

Finding subject sentence of given text has no relation with TextRank algorithm and is no goal of this project.

@theeluwin This issue has no reason to remain opened. Closing?

toomuchthink2016 commented 8 years ago

안녕하세요?

기능 추가 관련 버그를 올려 놓고 제가 급한일을 처리하느라 약 3개월 간 다른 업무 처리를 못해서 메일을 읽지 못했습니다. 너무 죄송합니다.

우선, 문장내 주제를 찾기 위한 간단한 로직에 대하여 이야기 해보려고 합니다. 이 방법이 반드시 적합하다는 것은 아니고, 추가적인 보완이 필요할 것으로 생각됩니다.

여러 문장으로 연결된 단락의 주제를 찾기.

  1. 문장의 어근 찾기 원문) 아메리카너구리, 미국너구리라는 이름을 보면 너구리와 무슨 관련이 있는 것으로 보이는데, 너구리 https://namu.wiki/w/%EB%84%88%EA%B5%AC%EB%A6%AC와는 생김새가 조금 비슷하다는 점 외에는 관련 없는 동물이다. 일단 분류부터가 너구리는 개과이며 라쿤은 '아메리카너구리과(라쿤과)'이다. '아메리카너구리'라고 부르는 것은 겉보기에 너구리와 비슷하게 생겨서 그렇게 붙인 것이지, 아메리카에 사는 너구리란 뜻이 아니다. '아메리카너구리'라는 이름은 그냥 머릿 속에서 지워버리고 이 생물을 '라쿤'이라는 이름으로 이해하는게 낫다. 어근) 아메리카너구리, 미국너구리, 이름, 보다, 너구리, 무엇, 관련, 있다. 것, 보다. 너구리, 생김새, 조금, 비슷하다, 점, 외, 관련, 없다, 동물, 분류, 너구리, 개과, 라쿤, 아메리카너구리과(라쿤과), 아메리카 너구리, 부르다, 것, 겉보기, 너구리, 비슷, 생기다, 그렇게, 붙이다, 아메리카, 살다, 너구리, 뜻, 아니다, 아메리카너구리, 이름, 그냥, 머리, 속, 지우다, 생물, 라쿤, 이름, 이해하다, 낫다.
  2. 어근에서 중복 패턴 찾기 (2번 이상 중복) 아메리카너구리 : 3 아메리카 : 5 이름 : 2 너구리 : 6
  3. 주제 판단 '아메리카 너구리 이름'에 관련한 내용

물론, 위에 내용은 어근을 활용한 개략적 주제를 찾는 방법이기에 정확도는 낮을 수 있습니다. 다른 여러가지 문장 내용을 찾는 알고리즘을 만들어서 정확도를 높힐 수 있을 것 같다고 사료됩니다.

다른 로직이 생각나면 또 메일을 보내겠습니다.

Regards, Think.

2016-07-02 15:40 GMT+09:00 Jamie J Seol notifications@github.com:

Closed #3 https://github.com/theeluwin/textrankr/issues/3.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/theeluwin/textrankr/issues/3#event-711127348, or mute the thread https://github.com/notifications/unsubscribe/ATTBAn16VEIfrbNQ6EQB9Fk1EKsj1OT2ks5qRgfTgaJpZM4JCwo- .

theeluwin commented 8 years ago

본 프로젝트에서 사용하는 방식도 어근만 따로 분리된(stemmed) 명사들을 사용하기 때문에 결과적으로는 비슷합니다. 다만 TF-IDF를 이용해서 얻은 문장 간의 cosine similarity 같은 값을 edge의 value로 추가적으로 사용한다거나 아니면 TextRank를 한번 더 돌려서 ensemble 하는 방법도 있을것 같네요.