shunsuke227ono / pelican

News Curation Application with AI Recommendation Engine
https://the-pelican.herokuapp.com/
3 stars 1 forks source link

rssのlinkから本文取得 #22

Closed shunsuke227ono closed 9 years ago

shunsuke227ono commented 9 years ago

linkから飛んでHTMLスクレーピングして本文取得する。

http://fullrss.net/ で全部いければ楽だったんだが、いけないケースがあるので、自分でスクレーピングするクラス用意する。

shunsuke227ono commented 9 years ago

現状http://fullrss.net/ でやってる奴らもそれでやってしまおう。どうせ用意するなら手間一緒だしfullrssとかいう文字で汚したくないし。

livedoorのrssでfeed持ってきて、そのfeedから、本文以外はnokogiriでinner_textセット。 本文は、そのリンクとノコギリでスクレーピングして本文のtextだけ返してくれるメソッド作ってそれで取得するようにする。

shunsuke227ono commented 9 years ago

16 時に共に終了