Open oratosa opened 4 years ago
論文タイトル Document Retrieval Using Entity-Based Language Models (SIGIR'16)
著者(所属) Raviv, Hadas, Oren Kurland, and David Carmel.
論文PDF/ランディングページへのリンク https://dl.acm.org/doi/pdf/10.1145/2911451.2911508
論文まとめ(落合フォーマット準拠)
どんなもの(どんな問題を解きたい)? アドホックなドキュメント検索タスクに対して,新しいentity-based language modelを提案した論文. 提案モデルで何がしたいか:entity-linkingによるエンティティの特定は語彙の多義性により必ずしも文脈において正解を保証しないので信頼度を与える. そして,termをtermのまま扱うのがいいのか,entityとして扱うのがいいのか,そのバランスを考慮できるようにする.
先行研究と比べてどこがすごい? entity-linkingを取り入れた手法は広く使われているが,表面的に特定されたentityを利用するメリットについては,はっきりとした説明・結論が出ていなかったので,この研究では,特定されたentityに信頼度を与えることで,それに応える この手法は,cluster-based document retrievalやquery expansionへの応用も有効なこと.
技術や手法のキモはどこ? エンティティと単なるトークンの両方に信頼度を与えていく.信頼度は言語モデルを利用して付与する. ドキュメントとクエリの類似度はクロスエントロピーで評価してランキングする. また別の方法として,エンティティだけの信頼度を持つクエリとドキュメント,トークン(term)だけの信頼度を持つクエリとドキュメント,それぞれをクロスエントロピーで評価し,ウェイトを調整して足し合わせた評価を使ってランキングすることもできる.
どうやって有効だと検証した? ベースラインは,term-based unigram language model retrievalのTermsLM,state-of-the-artのsequential dependence modelのSDMなど. データセットはTRECの6種類のデータセット. 結果は,トークンとエンティティのそれぞれに信頼度を付与する方法が最もよかった
議論はある?
次に読むべき論文は?
論文タイトル Document Retrieval Using Entity-Based Language Models (SIGIR'16)
著者(所属) Raviv, Hadas, Oren Kurland, and David Carmel.
論文PDF/ランディングページへのリンク https://dl.acm.org/doi/pdf/10.1145/2911451.2911508
論文まとめ(落合フォーマット準拠)
どんなもの(どんな問題を解きたい)? アドホックなドキュメント検索タスクに対して,新しいentity-based language modelを提案した論文. 提案モデルで何がしたいか:entity-linkingによるエンティティの特定は語彙の多義性により必ずしも文脈において正解を保証しないので信頼度を与える. そして,termをtermのまま扱うのがいいのか,entityとして扱うのがいいのか,そのバランスを考慮できるようにする.
先行研究と比べてどこがすごい? entity-linkingを取り入れた手法は広く使われているが,表面的に特定されたentityを利用するメリットについては,はっきりとした説明・結論が出ていなかったので,この研究では,特定されたentityに信頼度を与えることで,それに応える この手法は,cluster-based document retrievalやquery expansionへの応用も有効なこと.
技術や手法のキモはどこ? エンティティと単なるトークンの両方に信頼度を与えていく.信頼度は言語モデルを利用して付与する. ドキュメントとクエリの類似度はクロスエントロピーで評価してランキングする. また別の方法として,エンティティだけの信頼度を持つクエリとドキュメント,トークン(term)だけの信頼度を持つクエリとドキュメント,それぞれをクロスエントロピーで評価し,ウェイトを調整して足し合わせた評価を使ってランキングすることもできる.
どうやって有効だと検証した? ベースラインは,term-based unigram language model retrievalのTermsLM,state-of-the-artのsequential dependence modelのSDMなど. データセットはTRECの6種類のデータセット. 結果は,トークンとエンティティのそれぞれに信頼度を付与する方法が最もよかった
議論はある?
次に読むべき論文は?