[1998]A Language Modeling Approach to Information Retrieval - Githubissues

karakuri-ai / paper-readings

repository to research the machine learning papers

2 stars 1 forks source link

[1998]A Language Modeling Approach to Information Retrieval #21

Open IkokObi opened 5 years ago

IkokObi commented 5 years ago

ざっくり言うと

documentからqueryが検索ワードとして生成される確率をモデル化
確率モデルは単語tの出現確率を工夫してモデル化している
ノンパラメトリックな方法
tf-idfよりも優れた検索結果を達成

キーワード

IR
Language modeling

1. 情報

論文リンク

https://dl.acm.org/citation.cfm?id=291008

著者

Jay M. Ponte, W. Bruce Croft

投稿日付

1998/8/24-28 (SIGIR 98)

2. 先行研究と比べてどこがすごい？

文書に出現する単語にスコアをtf-idf等で付けるモデルにはパラメータが含まれることが多いが，本手法はノンパラメトリックなモデル
単語の検索結果スコアを出力するのではなく，単語が生成される確率をモデル化するので，検索phraseの予測やsuggestにも応用可能

3. 技術や手法のキモはどこ？

文書dから特定の単語tが出現する確率p(t|M_d)をモデル化した点

4. どうやって有効だと検証した？

TRECデータセットを使用して，tf-idfベースのモデル(Robertson's tf score, BM25とほぼ同じ, BM25はRobertsonによるもの)と比較

5. 議論はある？

queryのsuggestionへの応用
レアな単語の確率を定数でモデル化する部分の改善
relevance feedback, local feedback等のquery expansion techniqueを本研究のモデルから導出する

6. 次に読むべき論文は？

A New Probabilistic Model of Text Classification and Retrieval
- Tom Kalt
- http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.49.1288
- 1996/1/29
- 本研究に一番近いというアプローチとして引用されている
Some simple effective approximations to the 2-Poisson model for probabilistic weighted retrieval
- S. E. Robertson, S. Walker
- https://dl.acm.org/citation.cfm?id=188561
- BM25の論文, いつかは読んだ方が良い

IkokObi commented 5 years ago

7. 実装の詳細

文書dで条件付けたquery Qの生成確率がそのままスコアとなる
p_ml というのは単に文書における単語tの出現頻度
c_ft/c_sは全文書において単語tが登場する回数を総単語数(単語の種類ではなく単語の数)で割った値
p_avgは，単語tが文書に現れるとしたら平均していくつ現れるかを表す確率
出現頻度tf_t,dが大きい場合には平均が信頼できないので，そのあたりをRで調整
出現頻度が少ない単語は確率をover-estimateかunder-estimateして誤差が大きいと考えられるので，p_avgを一定確率として推定する方法をLM2としている

IkokObi commented 5 years ago

8. データセット

TREC 4 ad hoc task
- topics 202-250, disks 2 and 3, こちらはqueryが文章になっている
- topics 51-100, disk 3, こちらはqueryが単語の列挙
このあたりのTRECのタスクの名称と中身を把握出来ていない

IkokObi commented 5 years ago

9. 結果の詳細

precision-recallの値と，precision@Nの値(上位N個の検索結果におけるprecision)を記載
いくつかあるので1つだけ(TREC 202-250 disks 2 and 3の結果)
tf-idfのモデル(BM25)を超える精度

IkokObi commented 5 years ago

雑感&メモ

最後のConclusions and Future Workに，「ユーザが検索エンジンを理解出来れば検索も上手くいく」という主旨のことが書いてあり，ある意味納得した(あからさまにユーザに要求するのは難しいかもしれないが，UI等を工夫すれば上手くいくかも)
- 関連文書を非関連文書から特徴付ける単語を思いつく能力
- 検索候補文書全体における単語の出現頻度を可視化して，ユーザに教える(頻度が極端に多い単語は検索に役立たない)