codestates / ds-TIL

Data Science TIL page
2 stars 1 forks source link

[TIL] day 73-2 오세광 201216 #1199

Open sekwangoh opened 3 years ago

sekwangoh commented 3 years ago

키워드: BOW, TF-IDF, DTM,

(Act)What you actually did.

  1. N412a 과제를 진행하였다.
  2. 토큰화한 문서를 벡터화하는 방법을 배웠다.

(Evaluate)How you evaluate your action's outcome vs. the initial goal(plan).

  1. BOW CountVerctorizer생성하여, 벡터화를 진행했다. 문서를 벡터화하는 가장 기본적인 방식인 단어의 빈도만 고려하는 모델이다.
  2. TF-IDF는 TfidfVectorizer를 활용하여,특정 문서d에서 특정단어r가 쓰인 빈도, 특정단어 T가 나타난 문서의 갯수의 역수를 곱해주는 방식이다. 즉, 여러 문서에서 많이 등장하는 단어일수록 중요도가 낮다고 판단하고, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판한다.
  3. 빠르게 구현이 가능해서, TF-IDF는 베이스 라인으로 사용할 수 있다.

(Reflect)

How you worked throughout the stages plan-research-act-observe-evaluate. What did you do well, what can you improve upon. How can you improve your process?

  1. Spacy에서 특수문자를 없애는 방법을 더 공부할 필요가 있다.
  2. TF-IDF를 좀 더 뜯어본다.