NewsJamm / newsjam-textrank

newsjam-textrank
0 stars 0 forks source link

NewsJam - TextRank

뉴스 키워드 분석

뉴스 전문에 대한 분석이 필요하다. 뉴스 내부에서 키워드를 분석하는 과정은 다음과 같다.

  1. 뉴스 전문에서 세그먼트 분리
  2. 분리된 세그먼트에서 불용어(조사 등) 제거
  3. 정제된 단어 사이에서 키워드 추출 알고리즘
  4. 키워드 사이의 연관 관계를 통해 대표 키워드 추출
    • 키워드를 하나 이상 사용하는 것도 고려

위의 과정에서는 크게 두 가지 로직이 더 필요하다.

  1. 세그먼트 분리 후 불용어 제거 알고리즘
  2. 키워드 추출 알고리즘

불용어 제거 알고리즘

키워드 추출 알고리즘

  1. NLP 모델 사용 - 단순 본문에서 중요한 키워드 하나만 추출하는데 NLP모델을 사용하기에는 많은 양의 뉴스 본문을 사용하려면 많은 양의 리소스가 필요하고, 필요없는 부분에서 많은 낭비가 생긴다.

  2. 단어별 빈도 수 측정 - 단순 빈도 기반 분석은 키워드 추출에서 부족한 점이 많다. 단어 간의 연관성을 이용하여 TF-IDF 기법을 사용할 수 있지만, 이것도 정확도 면에서 떨어지는 것은 사실이다.

  3. 텍스트 랭킹 - 그래프 기반의 알고리즘을 사용한다. 뉴스 기사 내에서 단어들의 연관성을 분석하여 중요한 단어를 추출할 수 있다. 이전의 TF-IDF 기법 보다는 더 높은 정확도를 가질 거로 예상.

  4. 클러스터링 기반 접근 - 뉴스 기사 내에서 단어들을 관련성에 따라 서로 클러스터링 한 후, 각 클러스터에서 중심 단어를 추출하는 방법이다. 아마 비슷한 내용을 다루는 기사가 많을 경우에는 정확도가 높을 것으로 예상.

    • 한국어 클러스터링 알고리즘에는 K-Means, DBSCAN

컴퓨티 자원이 덜 필요하고, 높은 정확도를 가진 텍스트 랭킹 혹은 클러스터링 기반 접근이 좋다고 생각한다.

추가 사항

예상 로직 FLOW

image


image