Open yoheikikuta opened 6 years ago
2002にウェブ検索の taxonomy に関して A taxonomy of web search という論文が出ている。そこでは検索時の query は以下の三つの意図に分類できるとしている。
そこからウェブ上での情報は多様性を増し、^ の2002の論文の拡張が出たりしているが、画像検索に関してはしっかりした研究がなされてない。
画像検索はこれまでの情報検索と異なる趣もあるので、そこに注目して intent taxonomy を調べましょうというモチベーションである。
この論文における research question は以下の三つ。
どういうアプローチで research question に答えていくのか?
画像検索時の意図における従来研究では query がユーザの意図を表現しているという仮定を置いているが、画像検索では query が短くなりやすくその仮定は厳しい。その他のものも query の内容を具に調べるものだったが、この論文ではユーザの検索行動の全体を調べることで research question に対する答えを見つけようというアプローチ。
1つ目の research question によって意図は定義される。さらにセッションにおける初期段階を定義し、キーボードやマウスから取れる情報でユーザの意図の変化を捉えるというアプローチ。
提案した画像検索時の意図の taxonomy に対して、200人以上のユーザサーベイとウェブの画像検索ログを用いた実験で定量的な評価を実施する。
もうひとつ重要な従来研究は Task Behaviors During Web Search: The Difficulty of Assigning Labels っぽい。これはウェブ検索のタスクとして以下のものを提案している。
それだけでなく、これを決めるステップ(専門家を何人か集めて議論)とかどういうデータで検証するか、などを眺めると本論文が大いにこれを参考にしたことが伺える。
意図の taxonomy を定めるために使うデータ
Fleiss 's kappa は後の実験で扱うものなので一旦個々では無視。
これらを使ってどう intent を決めるかだが、ここは先行研究を踏襲している。ざっくり言って3人のウェブ研究者が喧々諤々議論して決める、というものである。まあこう決めるしかないのも分かるが...
その結果意図を選別するために鍵となる2つの基準を見つけ出した。
ふむ、これはシンプルで確かに有用そうだ。1つ目がやや抽象的な気もするが、まあ何となくブラウジングするかどうかを判別する類のものであろう。
この基準を使うことで、以下の検索意図を定義
具体例は以下の図を見ると分かりやすい。
提案した検索意図の検証。意図の作成に関わってない3人の大学院生に annotation をしてもらう。
次にユーザの検索意図の違いが判別できるかという問題を考える。
35人の学部生に12個の画像検索のタスクを解いてもらう($25の報酬とのこと)。 簡単な問題で慣れてもらってからランダム順に与えられる12個を全て解く。例としては以下。
結構細か条件も書かれていたりするが、特別なところは特にない。Javascript でマウスの activity を取得。user interaction feature としては以下のものになる。
統計の結果は以下。
特徴的なものとしては
などなど。 自分の直感とそこまで変わらないような結果が出ているとは思う。ここでの結論は意図を区別しうる feature があるぞ、ということ。
最後に上述の feature を使って、session の初期に意図を推測できるか、という問題。 session の初期の定義は「最初のマウススクロールがあるまで」とのこと。検索結果が出てその一ページ目で色々やってる部分をそう定義しているということですな。
予測で使う feature に関しては以下の注意がある。
feature を GBDT に突っ込んで 10-fold Cross Validation で評価。結果は以下。
ちなみにベースラインは majority class に全部寄せるというもの。それよりは有意に良く当てることができる、という結果。ただしやはりというか何と言うかそこまではっきりとは区別できない。初期段階のデータだけだから有意に違いが出た、というだけで十分な研究成果だということだろう。
一通り読んでみた。久々に数式とか全然使わない論文を読んだ気がする。 現代のデータ分析系の研究とは少し趣が異なる(大したデータ量じゃない)が、しっかりと問題設定とその検証を行っているとは思う。有り体に言って良く書けている。結果も明瞭で理解しやすいが、インパクトに欠ける部分はあるかも。
future work は初期状態に限らない解析や異なる意図に対する re-ranking など。
論文リンク
https://arxiv.org/abs/1711.09559
公開日(yyyy/mm/dd)
2017/11/27
概要
人が画像検索をどのような目的で行っているのか、ということを調べた論文。
論文曰く、{Entertain, Explore/Learn, Locate/Acquire} という意図に分けられるとのこと。Entertain は明確な目的があるわけではなく画像を検索することで、Explore/Learn は例えば筋トレにおける正しい姿勢みたいなのを画像で検索すること(その画像はダウンロードする必要なし)で、Locate/Acquire はレポートに使う図を検索すること(その画像はダウンロードして後に使う)。
大量のデータから推測した、という類のものではなく、ある程度のデータから仮説を立ててそれを実験で検証したという論文。
dwell time や mouse の操作などから、これら3つの分類とsessionの初期における予測、がある程度できることを定量的に示した。