Open IkokObi opened 5 years ago
単語をn-gram(論文ではtrigram)で表現するword hashingを用いて,ボキャブラリ数の増加に対応
単語をone-hotからword hashingに変換して,層を重ねてembeddingを学習するというモデル
テストデータは16,510個の検索ログデータ
各検索結果の文書に対して,0-4の5段階評価がついている
訓練データはクリック情報を用いて,queryに対して関連文書と非関連文書のセットを用意
SOTAモデルを含むベースラインモデルと比較して,良い精度
気になった点として,提案モデル(L-WH DNN)と従来モデル(TF-IDF)の結果を比較した表を見ると,曖昧な検索ではL-WHが勝っているが,通常の検索では負けている印象
上の結果を見ると,https://github.com/IkokObi/paper-readings/issues/7 のように厳密な検索と曖昧検索を併用したくなる
https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/
Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, Larry Heck
2013/10/27-11/1 (CIKM 13)
ざっくり言うと
単語をn-gram(論文ではtrigram)で表現するword hashingを用いて,ボキャブラリ数の増加に対応
単語をone-hotからword hashingに変換して,層を重ねてembeddingを学習するというモデル
テストデータは16,510個の検索ログデータ
各検索結果の文書に対して,0-4の5段階評価がついている
訓練データはクリック情報を用いて,queryに対して関連文書と非関連文書のセットを用意
SOTAモデルを含むベースラインモデルと比較して,良い精度
気になった点として,提案モデル(L-WH DNN)と従来モデル(TF-IDF)の結果を比較した表を見ると,曖昧な検索ではL-WHが勝っているが,通常の検索では負けている印象
上の結果を見ると,https://github.com/IkokObi/paper-readings/issues/7 のように厳密な検索と曖昧検索を併用したくなる
キーワード
1. 情報
論文リンク
https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/
著者
Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, Larry Heck
投稿日付
2013/10/27-11/1 (CIKM 13)