Open IkokObi opened 5 years ago
スコアは関連文書クラスから文書が出てくる確率と,非関連文書クラスから出てくる確率の比
非関連文書クラスから単語が出てくる確率は,その単語の出現回数を全文書の単語数で割った値
以下では論文中の2つの手法のうち,精度が良かった方のみ記述
関連文書クラスから単語が出てくる確率を次の形で近似
単語が出てくるモデルの数を制限(論文中では50個)し,各モデルから単語が出てくる確率を次で表現
関連するモデルM_Dはquery q_1,..., q_kで検索してヒットする上位50件の文書に対応
あとは色々と確率の周辺化等を行う
ざっくり言うと
キーワード
1. 情報
論文リンク
https://dl.acm.org/citation.cfm?id=383972
著者
Victor Lavrenko, W. Bruce Croft
投稿日付
2001/9/9-12 (SIGIR 01)
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
R
を関連する文書のクラスとし,p(w|R)
をp(w|q_1, ..., q_k)
で近似した点p(w|q_1, ..., q_k)
のモデルを2通り提案4. どうやって有効だと検証した?
p(w|R)
を近似的に得て,それとのクロスエントロピーを計算5. 議論はある?
6. 次に読むべき論文は?