short summary

Information Retrievalの基本からニューラルネットによるモデルまでの概観を説明したチュートリアル的な論文。

textual retrievalの基礎

IR modelsに求められるもの

semantic understanding
- exact matchingだけでなく、意味の近いものを取ってこれる、単語の組み合わせで意味が変わる、contextの理解などが必要
Robustness to rare inputs
- dataから表現を学習するIRモデルは、fixed size vocabularyであったり、そうでなくても出現回数が少ないといい表現を学習できない。→ exact matching modelの方がrare termに対しては強い。
Robustness to corpus variance
- deep系はtrain, test dataの分布の違いに弱い
様々なドキュメントの長さに対するロバストネス
Sensitivity to context
Efficiency
- search engineとかは大体candidatesを枝刈りする複数レイヤーから成る。
- 下位レイヤーは膨大なドキュメントから枝刈りする必要があるので、速さが必要・粗く違うだろうものを取り除く
- 上位レイヤーで、下位で抽出したものそれぞれとqueryの関連度まで出してランキングする必要がある。ニューラルモデルはここで使える。

Metric

Precision and recall
Mean reciprocal rank (MRR)
- RR = 1 / n (nは初めて正解が出た順位）でそれの全test queryに対する平均
Mean average percision (MAP)
- average precision : 検索結果のランキングを上から見ていき、上からn番目の正解の文書が見つかるたびに、1 ~ nの範囲でprecisionを求める、ということを繰り返し、それらの平均をとる。（要はprecisionをrecallについて平均をとったもの、上位に正解のものが多く出てくるほど高いスコアを示す）
- 参考：https://petitviolet.hatenablog.com/entry/20110901/1314853107

※上記3項目は、基本的にはラベルは0, 1

Normalized discounted cumulative gain (NDGG)
- NDDGは、順位付けの正しさを表し、完全に正しい順位付けがされる場合1になる。かつ上位の結果を重く見ている。検索エンジンなどでは、主に評価に用いる文書数として、上から10程度を使う。

Traditional IR Models

TF-IDF documentにおけるquery termの出現数：term frequency そのquery termの出てくるdocumentの頻度：inverse document frequency queryに出てくる単語がdocumentにいっぱい出てきてかつそれらが他のdocumentにはあまり出てこない時にqueryとdocumentの関連度は高いと考える。有名なranking function：BM25
Language Model documentを、事後確率p(d|q)でランキング。 →(10)：document dからランダムにサンプルされた単語でqueryが生成される確率。 ((12)では、dだけからだと母集団の単語が少ないので、Dも使ってsmoothing）

TF-IDFもLMも関連度を文書内のqueryに出てくる単語のカウントで出している。出てくる場所や他の単語との関係は無視以下の3つはこれらのどちらかを考慮

Translation Model queryがdocumentから”翻訳されて”生成されると仮定文書内のqueryには出てこない単語との関連性を”翻訳”を利用して考慮できる。（queryの単語とdocumentの単語のペアは、SMTと同じ手法で学習できる。）
Dependence Model ngramやbowを利用して、query内の単語の近接性を考慮
Pseudo relevance feedback (PRF)（擬似適合フィードバック）検索を２回行うことで精度を高める。１回目の検索で出てきた結果の文書を使ってquery（の言語モデル）を拡張し、もう１度検索を行う。 documentのスコアリングは、以下のようにKL divergenceでqueryとdocumentの言語モデルの分布を比較する。(Tは全vocabulary) PRFなしでは（及び第一iterationでは）、第２段階では、（RM3という有名なものの定式化）第一項は、queryに単語tが何回出てくるか、第二項は、１回目の検索で取ってきた各文書dにtが何回出てくるか的なことを表している。 query拡張により、vocablaryのミスマッチ問題に対してロバストになる。マイクロブログ検索に有効らしい。

Learning to rank(L2R)

上のtraditional IR modelとは違い、機械学習ベース。L2Rにおいて、query-document pairはベクトルで表され、それを入力とするモデルによって、scoreに変換される。目的関数による３つの分類

pointwise approach: query-document pairを入力とし、その関連度スコア（0-1 or 連続値）を正解とする回帰を解く
pairwise approach: queryに対して、より関連度が高い文書を当てる2クラス分類を解く
listwise approach: リストに対してrank-based metricを直接最適化、metricが微分可能でない場合が多く、難しい L２SRの入力の3分類
query-independent or static feature (PageRank score, documentのspam scoreなど）
query-dependent or dynamic features (BM25など）
query-level features (query内の単語数など）

有名な例

RankNet Bingで使われていたりするらしい。ニューラルネットなどでqueryの2文書に対するスコアを出し、シグモイドで文書１のほうが関連度が高い確率を出して勾配降下法で最適化。

単語表現

Notion of similarity

他にもあるが、以下の2つは特に、使う特徴量によりどちらを重視した表現となるかを意識する必要がある。

typical : typeが近い（SeattleとSydneyが近い）
topical : topicが近い、同じ文書によく出てくる（SeattleとSeahawksが近い）

Embedding

explicit representation (highly sparse and high-dimentional)からembedding (dense and low-dimentional)により、可読性は下がるが、単語関係が密になり一般化されることでパフォーマンスは上がる。

LSA term-document matrixを行列分解
Word2vec
Glove IN、OUT両方の行列を使う（和をとる） trainデータの全共起を集計して考える（globalな情報を使う）
Paragraph2vec Doc2vec term-document pairはよりtopicalな単語間の関係を導く。 IRのためのDoc2vecの改良
- Qingyao Ai, Liu Yang, Jiafeng Guo, and W Bruce Croft. 2016. Analysis of the paragraph vector model for information retrieval. In Proc. ICTIR. ACM, 133–142.
- Qingyao Ai, Liu Yang, Jiafeng Guo, and W Bruce Croft. 2016. Improving language estimation with the paragraph vector model for ad-hoc retrieval. In Proc. SIGIR. ACM, 869–872.

IRのための単語表現

AWE ( average word embedding) 個々の単語からquery, docmentのベクトルを得る方法として、シンプルに平均をとるのがポピュラーこのとき、term embeddingがtopicalかtypicalかが効いてくる LSA, Doc2vec : topical word2vec, glove : topicalとtypicalのmix (word2vecは、小さいwindow size, short textだとよりtypical)
DESM (dual embedding space model)
- word2vecをIRで使うときは、queryをIN embeddingで、documentをOUT embeddingで表すのが適切
- 訓練はdocumentデータではなく、queryデータで行う。
NTLM (Neural Translation Language Model) sec2.5のtranslation modelのtermの関連度を求めるところにembeddingを活用
GLM (Generalized Language Model) sec2.5のlanguage modelのアプローチをembedding用に拡張
WMD (word mover's distance) earth mover's distanceでterm embeddingの集合としての2文書間の距離を算出最終的に、NWT (Non-linear Word Transportation model)がこの概念を、queryとdocument間の関連度の導出に組み込んでいる。
Telescoping evaluation embedding系はfull document collectionに対して検索するときはしばしば微妙 → exact matchingとembeddingは間違えるところが違う → exact matchingなど他手法で抜き出したものをembeddingでrerank（このようなchainな手法をtelescopeという）
query expansion embeddingを使ってqueryを拡張し、それを使って検索する。 → 単体だとPRFより悪いが、PRFとtelescopeで組み合わせることで精度が上がる。 query specific term embeddingを使ってquery expansionするとより効果的

IRのためのDeep neural model

auto encoder

auto encoderで隠れ層が0, 1をとるようにして、文書が圧縮後も0, 1のベクトルで表されるようにする。 → 検索時にqueryをhash化（0, 1のベクトル？）し、素早く検索して引っかかったものを別モデルでsort（The Semantic Hashing Model）この手法では、IRタスクに対して最適化していないので、目的に合う表現を得るためにquery-document pairでauto encoderを訓練するという方法がある。

Siamese networks

主に文書のタイトルなどのshort textとqueryに使われるが、最近ではlong documentに対しても結果がでてるっぽい。 siameseでもデータによってsimilarityの違いはあり、CDSSM（Convolutional Deep Semantic Similarity Model）でquery-document pairを使ったときはよりtopicalだが、queryのprefix-suffix pair（queryの前半と後半）を使ったときはtypical。ちなみにprefix-suffixは、query-auto-completion（途中まで打ち込まれたものからその先のsuggestionをする）のスコアをつけるために、siameseを用いてprefix, suffixを別で通してマッチングさせるときなどに使われる。

Interaction-based networks

siameseだと、queryもdocumentも１つのembedding vectorに落とし込む。 → long documentを1つのベクトルで表すのはちょい無理があるので、それぞれの部分部分で関連度出して足し合わせるほうがいいかも → queryの各parts, documentの各partsでmatrixを使ってそこにconvolutionをかけてスコア算出

Lexical and semantic matching networks

neural IR modelの多くは、よりよいテキスト表現を得ることにフォーカスしているが、レアな単語の表現はうまく学習しない。 → lexical matchもdeepなモデルにうまく組み込まれなければ → duet architectureでlexical matching modelとsemantic matching model両方を考慮など

traditionalなもの（lexical系？）とneural系（semantic系？）で得意領域が違う

Conclusionの中のお話

その時々のcontextからqueryの意味を推察できるのが理想 → モデルに全知識を詰め込むことはできない → ある程度の知識はもち、プラスで現在のqueryに関係のあるdocumentを読んでqueryに条件づけを加えるような仕組みが理想かも

author

Bhaskar Mitra Microsoft, UCL∗ Cambridge, UK bmitra@microsoft.com Nick Craswell Microsoft Bellevue, USA nickcr@microsoft.com

URL

https://arxiv.org/pdf/1705.01509.pdf

year

2017

kacky24 / papers

Neural Models for Information Retrieval #37