Open IkokObi opened 5 years ago
文書d
で条件付けたquery Q
の生成確率がそのままスコアとなる
p_ml
というのは単に文書における単語t
の出現頻度
c_ft/c_s
は全文書において単語t
が登場する回数を総単語数(単語の種類ではなく単語の数)で割った値
p_avg
は,単語t
が文書に現れるとしたら平均していくつ現れるかを表す確率
出現頻度tf_t,d
が大きい場合には平均が信頼できないので,そのあたりをRで調整
出現頻度が少ない単語は確率をover-estimateかunder-estimateして誤差が大きいと考えられるので,p_avg
を一定確率として推定する方法をLM2としている
ざっくり言うと
t
の出現確率を工夫してモデル化しているキーワード
1. 情報
論文リンク
https://dl.acm.org/citation.cfm?id=291008
著者
Jay M. Ponte, W. Bruce Croft
投稿日付
1998/8/24-28 (SIGIR 98)
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
d
から特定の単語t
が出現する確率p(t|M_d)
をモデル化した点4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?