Address에서 [Applause] 또는 [applause] 처리
Remarks에서 [Boos] 또는 [boos] 처리 (Bernie Sanders, Remarks at a Campaign Rally in Carson, California)
P.S. [audience boos] [audience laughter] [begin video clip] [end video clip]
(Bernie Sanders, Interview with Erin Burnett of CNN)
[inaudible] [crosstalk] [commercial break]
(Bernie Sanders, Remarks in a Town Hall Meeting with Chris Hayes of MSNBC at the National Constitution Center in Philadelphia, Pennsylvania)
이걸로 봤을때 아예 [ ] 안에 들어있는 단어는 다 지우는게 어떨까 생각이 들어.
모든 speech 마지막 'Citation: Name of the Author (e.g. Hillary Clinton): ... , The American Presidency Project. http:// ~ ' 처리
presidential election speech 성격상 Tonight, tonight이라는 단어가 많이 나오는데 (실제로 우리 stm 에도 7번, 29번에 걸려있음) 아예 stop words list에 그걸 넣어서 pre-processing하는건 어떻게 생각해?
Address/Interview/Others 숫자가 그렇게 많지가 않아서, 이 특별한 text type에 대한 장소 처리는
hand-coding으로 할까 하는데 어떻게 생각해? 장소가 나오는 regularity를 찾아보려고 했는데
뚜렷한 방법이 안떠올라서...
Q&A, 두 사람이 말하는 경우는 preprocessing 없이 그대로 가는게 어떨까 해. 보통 질문하는 사람은 general한 단어로 질문을 할테니 topic modeling 할때 영향이 미미할것 같다는게 내 생각이야.
P.S. [audience boos] [audience laughter] [begin video clip] [end video clip] (Bernie Sanders, Interview with Erin Burnett of CNN) [inaudible] [crosstalk] [commercial break] (Bernie Sanders, Remarks in a Town Hall Meeting with Chris Hayes of MSNBC at the National Constitution Center in Philadelphia, Pennsylvania)
이걸로 봤을때 아예 [ ] 안에 들어있는 단어는 다 지우는게 어떨까 생각이 들어.
모든 speech 마지막 'Citation: Name of the Author (e.g. Hillary Clinton): ... , The American Presidency Project. http:// ~ ' 처리
presidential election speech 성격상 Tonight, tonight이라는 단어가 많이 나오는데 (실제로 우리 stm 에도 7번, 29번에 걸려있음) 아예 stop words list에 그걸 넣어서 pre-processing하는건 어떻게 생각해?
Address/Interview/Others 숫자가 그렇게 많지가 않아서, 이 특별한 text type에 대한 장소 처리는 hand-coding으로 할까 하는데 어떻게 생각해? 장소가 나오는 regularity를 찾아보려고 했는데 뚜렷한 방법이 안떠올라서...
Q&A, 두 사람이 말하는 경우는 preprocessing 없이 그대로 가는게 어떨까 해. 보통 질문하는 사람은 general한 단어로 질문을 할테니 topic modeling 할때 영향이 미미할것 같다는게 내 생각이야.