bm-sms / daimon-news

MIT License
12 stars 1 forks source link

テキスト抽出方法の見直し #338

Closed okkez closed 8 years ago

okkez commented 8 years ago

Groongaに入れるときに Post#body じゃなくてちゃんとテキストを抽出する。

目的は、markdown の記号などで検索にノイズが混ざらないようにするため。

okkez commented 8 years ago

Nokogiri::HTML(render_markdown(post.body)).innter_text でいけるはずだけど、性能が気になる。

okkez commented 8 years ago

1秒も変わらなかった。

before: bundle exec ruby groonga/init.rb  7.63s user 0.61s system 79% cpu 10.333 total
after: bundle exec ruby groonga/init.rb  8.47s user 0.58s system 80% cpu 11.236 total