kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

Neural Models for Information Retrieval #37

Closed kacky24 closed 5 years ago

kacky24 commented 5 years ago

short summary

Information Retrievalの基本からニューラルネットによるモデルまでの概観を説明したチュートリアル的な論文。

textual retrievalの基礎

IR modelsに求められるもの

Metric

※上記3項目は、基本的にはラベルは0, 1

Traditional IR Models

TF-IDFもLMも関連度を文書内のqueryに出てくる単語のカウントで出している。 出てくる場所や他の単語との関係は無視 以下の3つはこれらのどちらかを考慮

Learning to rank(L2R)

上のtraditional IR modelとは違い、機械学習ベース。L2Rにおいて、query-document pairはベクトルで表され、それを入力とするモデルによって、scoreに変換される。 目的関数による3つの分類

有名な例

単語表現

Notion of similarity

他にもあるが、以下の2つは特に、使う特徴量によりどちらを重視した表現となるかを意識する必要がある。

2018-10-17 23 37 00

Embedding

explicit representation (highly sparse and high-dimentional)からembedding (dense and low-dimentional)により、可読性は下がるが、単語関係が密になり一般化されることでパフォーマンスは上がる。

IRのための単語表現

IRのためのDeep neural model

auto encoder

auto encoderで隠れ層が0, 1をとるようにして、文書が圧縮後も0, 1のベクトルで表されるようにする。 → 検索時にqueryをhash化(0, 1のベクトル?)し、素早く検索して引っかかったものを別モデルでsort(The Semantic Hashing Model) この手法では、IRタスクに対して最適化していないので、目的に合う表現を得るためにquery-document pairでauto encoderを訓練するという方法がある。

Siamese networks

主に文書のタイトルなどのshort textとqueryに使われるが、最近ではlong documentに対しても結果がでてるっぽい。 siameseでもデータによってsimilarityの違いはあり、CDSSM(Convolutional Deep Semantic Similarity Model)でquery-document pairを使ったときはよりtopicalだが、queryのprefix-suffix pair(queryの前半と後半)を使ったときはtypical。 ちなみにprefix-suffixは、query-auto-completion(途中まで打ち込まれたものからその先のsuggestionをする)のスコアをつけるために、siameseを用いてprefix, suffixを別で通してマッチングさせるときなどに使われる。

Interaction-based networks

2018-10-17 23 37 00

siameseだと、queryもdocumentも1つのembedding vectorに落とし込む。 → long documentを1つのベクトルで表すのはちょい無理があるので、それぞれの部分部分で関連度出して足し合わせるほうがいいかも → queryの各parts, documentの各partsでmatrixを使ってそこにconvolutionをかけてスコア算出

Lexical and semantic matching networks

neural IR modelの多くは、よりよいテキスト表現を得ることにフォーカスしているが、レアな単語の表現はうまく学習しない。 → lexical matchもdeepなモデルにうまく組み込まれなければ → duet architectureでlexical matching modelとsemantic matching model両方を考慮など

2018-10-17 23 37 00

traditionalなもの(lexical系?)とneural系(semantic系?)で得意領域が違う

2018-10-17 23 37 00

Conclusionの中のお話

その時々のcontextからqueryの意味を推察できるのが理想 → モデルに全知識を詰め込むことはできない → ある程度の知識はもち、プラスで現在のqueryに関係のあるdocumentを読んでqueryに条件づけを加えるような仕組みが理想かも

author

Bhaskar Mitra Microsoft, UCL∗ Cambridge, UK bmitra@microsoft.com Nick Craswell Microsoft Bellevue, USA nickcr@microsoft.com

URL

https://arxiv.org/pdf/1705.01509.pdf

year

2017