mu-777 / humanListAnalyzer

https://mu-777.github.io/humanListAnalyzer/
0 stars 0 forks source link

[Analyze] テキストマイニングのための本文下処理 #11

Closed mu-777 closed 6 years ago

mu-777 commented 6 years ago

https://qiita.com/yubessy/items/16d2a074be84ee67c01f#%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF-1

でHTMLの本文をGet

mu-777 commented 6 years ago

HTMLで取ってきて,find('p', 'p a', 'ul li', 'ul li a')の中身を抜いてくる 'ul li', 'ul li a'は目次も取ってきたり結構ノイズ多いが, 目次はフィルタして抜くようにする

一旦これで良いこととする