htano / summary_dev

development social summary service
1 stars 0 forks source link

テキスト解析グランドデザイン #153

Open toru1055 opened 10 years ago

toru1055 commented 10 years ago
toru1055 commented 10 years ago
toru1055 commented 10 years ago

要約がうまくいってないサイトをあげていく

error系

http://iphonemusic.jugem.jp/?eid=1269 http://agora-web.jp/archives/1568203.html http://karapaia.livedoor.biz/archives/52145261.html

コンテンツ取得がうまくいってない系

http://togetter.com/li/590866 ハッシュタグがうざい

https://github.com/twitter/finatra http://yaraon.blog109.fc2.com/blog-entry-19899.html http://mattn.kaoriya.net/software/lang/go/20131115151448.htm http://erilab.rhse.info/entry/2013/11/15/182005 http://footballnet.2chblog.jp/archives/34084700.html http://www.n11books.com/archives/34850918.html http://news.ameba.jp/20131109-25/ 関連記事とか除きたい http://azanaerunawano5to4.hatenablog.com/entry/2013/11/15/162052 http://himarin.net/archives/7410051.html http://www.hoshusokuhou.com/archives/34076809.html http://jcp-sagamihara.jp/

toru1055 commented 10 years ago

todo

  1. clusteringモデルの更新手順を考える
    • 1回クラスタを分けたら基本はそのままで、定期的に重心ベクトルを求めて再配分する
  2. categoryで本文や要約を使う
  3. domainごとに無視する正規表現を指定できるようにする
  4. (done)自動要約でDiversityを考慮する
  5. dailyタスクを整理する
  6. df, clustering, categoryなどのモデル更新タスクを整理する
  7. 形態素解析する