Alicechung / ML_finalPJT

2018 Machine Learning Final Project
1 stars 3 forks source link

Pre-processing words #5

Closed minjukim1220 closed 6 years ago

minjukim1220 commented 6 years ago
  1. Address에서 [Applause] 또는 [applause] 처리 Remarks에서 [Boos] 또는 [boos] 처리 (Bernie Sanders, Remarks at a Campaign Rally in Carson, California)

P.S. [audience boos] [audience laughter] [begin video clip] [end video clip] (Bernie Sanders, Interview with Erin Burnett of CNN) [inaudible] [crosstalk] [commercial break] (Bernie Sanders, Remarks in a Town Hall Meeting with Chris Hayes of MSNBC at the National Constitution Center in Philadelphia, Pennsylvania)

이걸로 봤을때 아예 [ ] 안에 들어있는 단어는 다 지우는게 어떨까 생각이 들어.

  1. 모든 speech 마지막 'Citation: Name of the Author (e.g. Hillary Clinton): ... , The American Presidency Project. http:// ~ ' 처리

  2. presidential election speech 성격상 Tonight, tonight이라는 단어가 많이 나오는데 (실제로 우리 stm 에도 7번, 29번에 걸려있음) 아예 stop words list에 그걸 넣어서 pre-processing하는건 어떻게 생각해?

  3. Address/Interview/Others 숫자가 그렇게 많지가 않아서, 이 특별한 text type에 대한 장소 처리는 hand-coding으로 할까 하는데 어떻게 생각해? 장소가 나오는 regularity를 찾아보려고 했는데 뚜렷한 방법이 안떠올라서...

  4. Q&A, 두 사람이 말하는 경우는 preprocessing 없이 그대로 가는게 어떨까 해. 보통 질문하는 사람은 general한 단어로 질문을 할테니 topic modeling 할때 영향이 미미할것 같다는게 내 생각이야.