[2001]Relevance-Based Language Models - Githubissues

karakuri-ai / paper-readings

repository to research the machine learning papers

2 stars 1 forks source link

[2001]Relevance-Based Language Models #16

Open IkokObi opened 5 years ago

IkokObi commented 5 years ago

ざっくり言うと

IRにおける確率モデル的アプローチと言語モデル的アプローチを調べ，それらの良い部分を活用
「検索の関連文書から，ある単語が出現する確率」をモデリングする手法を提案
ノンパラメトリック的な感じなので，訓練データが不要
確率をスコアとして検索に用いる

キーワード

IR
relevance model

1. 情報

論文リンク

https://dl.acm.org/citation.cfm?id=383972

著者

Victor Lavrenko, W. Bruce Croft

投稿日付

2001/9/9-12 (SIGIR 01)

2. 先行研究と比べてどこがすごい？

「関連性のモデル」の推定を，検索キーワードで条件付ける形に近似したこと
大量の文書集合と，queryのみから構成できて，関連文書という教師データが不要なこと(ノンパラメトリックであり，学習は不要)

3. 技術や手法のキモはどこ？

Rを関連する文書のクラスとし，p(w|R)をp(w|q_1, ..., q_k)で近似した点
p(w|q_1, ..., q_k)のモデルを2通り提案

4. どうやって有効だと検証した？

人手で分類された関連文書群を用いて，真のp(w|R)を近似的に得て，それとのクロスエントロピーを計算
TREC ad-hoc retrievalタスク
TDT topic trackingタスク
1番目のタスクでは提案した2つの手法同士を比較
2,3番目のタスクでは，ベースラインモデルと比較

5. 議論はある？

学習データを活用する方向

6. 次に読むべき論文は？

The probability ranking principle in IR
- S. E. Robertson
- https://www.researchgate.net/publication/235253512_The_Probability_Ranking_Principle_in_IR
- 1977
- 本の一部？
- この分野の古典的な感じ

IkokObi commented 5 years ago

7. 実装の詳細

スコアは関連文書クラスから文書が出てくる確率と，非関連文書クラスから出てくる確率の比
非関連文書クラスから単語が出てくる確率は，その単語の出現回数を全文書の単語数で割った値

以下では論文中の2つの手法のうち，精度が良かった方のみ記述

関連文書クラスから単語が出てくる確率を次の形で近似
単語が出てくるモデルの数を制限(論文中では50個)し，各モデルから単語が出てくる確率を次で表現
関連するモデルM_Dはquery q_1,..., q_kで検索してヒットする上位50件の文書に対応
あとは色々と確率の周辺化等を行う

IkokObi commented 5 years ago

8. データセット

Model cross-entropy
- 約63,000件のニュース
- TDT2データセットの96トピック全てについて，各文書が関連するか否かを人手でアノテーション
- 関連文書から得られる単語の出現確率を用いて，提案モデル1,2とクロスエントロピーを計算
TREC ad-hoc retrieval
- TREC title queriesの101-150と151-200を使用
TDT topic tracking
- 与えられた話題に関連する文書を追跡するタスク
- 96トピック，約63,000文書
- 詳細は"The TDT-2 text and speech corpus" (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3999)

IkokObi commented 5 years ago

9. 結果の詳細

Model cross-entropy
提案した2つのモデルのうち，2つ目の方が良いという結果に
TREC ad-hoc retrieval
ベースラインモデル(LM)よりも全体的に良い性能(表データとして有意差あり)
TDT topic tracking
学習をしていないのにも関わらず，SOTA手法と同等の精度

IkokObi commented 5 years ago

雑感&メモ

検索キーワードで絞った文書を元にして，単語の確率モデルを立てるという部分を知りたかった
DNNに向かう前の基本的な部分の発想