[1711.09559] Why People Search for Images using Web Search Engines [paper-reading]

yoheikikuta commented 6 years ago

論文リンク

公開日（yyyy/mm/dd）

2017/11/27

概要

人が画像検索をどのような目的で行っているのか、ということを調べた論文。

論文曰く、{Entertain, Explore/Learn, Locate/Acquire} という意図に分けられるとのこと。Entertain は明確な目的があるわけではなく画像を検索することで、Explore/Learn は例えば筋トレにおける正しい姿勢みたいなのを画像で検索すること（その画像はダウンロードする必要なし）で、Locate/Acquire はレポートに使う図を検索すること（その画像はダウンロードして後に使う）。

大量のデータから推測した、という類のものではなく、ある程度のデータから仮説を立ててそれを実験で検証したという論文。

dwell time や mouse の操作などから、これら3つの分類とsessionの初期における予測、がある程度できることを定量的に示した。

yoheikikuta commented 6 years ago

2002にウェブ検索の taxonomy に関して A taxonomy of web search という論文が出ている。そこでは検索時の query は以下の三つの意図に分類できるとしている。

Navigational (The immediate intent is to reach a particular site)
Informational (The intent is to acquire some information assumed to be present on one or more web pages)
Transactional (The intent is to perform some web-mediated activity)

yoheikikuta commented 6 years ago

そこからウェブ上での情報は多様性を増し、^ の2002の論文の拡張が出たりしているが、画像検索に関してはしっかりした研究がなされてない。

画像検索はこれまでの情報検索と異なる趣もあるので、そこに注目して intent taxonomy を調べましょうというモチベーションである。

yoheikikuta commented 6 years ago

この論文における research question は以下の三つ。

なぜ人々は text base のウェブ画像検索で画像を検索するのか
画像検索の振る舞いはユーザの意図と共にどう変化するか
セッションの初期においてユーザの行動から意図を予測することができるか

yoheikikuta commented 6 years ago

どういうアプローチで research question に答えていくのか？

なぜ人々は text base のウェブ画像検索で画像を検索するのか

画像検索時の意図における従来研究では query がユーザの意図を表現しているという仮定を置いているが、画像検索では query が短くなりやすくその仮定は厳しい。その他のものも query の内容を具に調べるものだったが、この論文ではユーザの検索行動の全体を調べることで research question に対する答えを見つけようというアプローチ。

画像検索の振る舞いはユーザの意図と共にどう変化するか

１つ目の research question によって意図は定義される。さらにセッションにおける初期段階を定義し、キーボードやマウスから取れる情報でユーザの意図の変化を捉えるというアプローチ。

セッションの初期においてユーザの行動から意図を予測することができるか

提案した画像検索時の意図の taxonomy に対して、200人以上のユーザサーベイとウェブの画像検索ログを用いた実験で定量的な評価を実施する。

yoheikikuta commented 6 years ago

もうひとつ重要な従来研究は Task Behaviors During Web Search: The Difficulty of Assigning Labels っぽい。これはウェブ検索のタスクとして以下のものを提案している。

Navigate
Find-Simple
Find-Complex
Locate/Acquire
Explore/Learn
Play
Meta

それだけでなく、これを決めるステップ（専門家を何人か集めて議論）とかどういうデータで検証するか、などを眺めると本論文が大いにこれを参考にしたことが伺える。

yoheikikuta commented 6 years ago

意図の taxonomy を定めるために使うデータ

ユーザサーベイ
- デモグラの収集
- 最近の画像検索に関して以下の質問
- 最近の検索に関して時間や場所や動機などを可能な限り詳細に答える
- 検索で使用した query を答える（必要なら履歴を見て）
- 適切な回答をした211人が対象（Wechat で集めて$0.5支払ったとのこと）
ログの検証
- Sogou のデータ
- 30分以内に連続的な query を与えている 475 session が対象（アダルトなものは除かれている）
- session に関する統計は以下

Fleiss 's kappa は後の実験で扱うものなので一旦個々では無視。

yoheikikuta commented 6 years ago

これらを使ってどう intent を決めるかだが、ここは先行研究を踏襲している。ざっくり言って3人のウェブ研究者が喧々諤々議論して決める、というものである。まあこう決めるしかないのも分かるが...

その結果意図を選別するために鍵となる2つの基準を見つけ出した。

ユーザの検索行動は明確な目的に依るものか？
検索後も更に使用するために画像をダウンロードする必要があるか？

ふむ、これはシンプルで確かに有用そうだ。1つ目がやや抽象的な気もするが、まあ何となくブラウジングするかどうかを判別する類のものであろう。

yoheikikuta commented 6 years ago

この基準を使うことで、以下の検索意図を定義

Explore/Learn (1-yes, 2-no)
Locate/Acquire (1-yes, 2-yes)
Entertain (1-no, 2-yes,no)

具体例は以下の図を見ると分かりやすい。

yoheikikuta commented 6 years ago

提案した検索意図の検証。意図の作成に関わってない3人の大学院生に annotation をしてもらう。

ユーザサーベイに対して 3つの意図もしくは {difficult to classify, others} で答えてもらう
- Fleiss' kappa は 0.673 で一致度は結構高い
- Explore/Learn: 27%, Locate/Acquire: 66%, Entertain 7%
- difficult to classify: 1.41%, 0%, 0.94%
- others: 0.47%, 0.94%, 2.37%
ログに対してクエリのリストのみが与えられている状態で同様の annotation
- Fleiss' kappa は全体で 0.375 で、session の長さ毎では ^ の方に貼った表に載っている
- Explore/Learn: 56%, Locate/Acquire: 39%, Entertain 5%
- クエリだけだと意図が掴みきれないだろうという結論（画像検索だしそれはありそう）

yoheikikuta commented 6 years ago

次にユーザの検索意図の違いが判別できるかという問題を考える。

35人の学部生に12個の画像検索のタスクを解いてもらう（$25の報酬とのこと）。簡単な問題で慣れてもらってからランダム順に与えられる12個を全て解く。例としては以下。

結構細か条件も書かれていたりするが、特別なところは特にない。Javascript でマウスの activity を取得。user interaction feature としては以下のものになる。

統計の結果は以下。

特徴的なものとしては

停留時間は Explore/Learn が長い
マウスクリック数は Explore/Learn < Locate/Acquire < Entertain の順
query reformulation は Locate/Acquire が多い

などなど。自分の直感とそこまで変わらないような結果が出ているとは思う。ここでの結論は意図を区別しうる feature があるぞ、ということ。

yoheikikuta commented 6 years ago

最後に上述の feature を使って、session の初期に意図を推測できるか、という問題。 session の初期の定義は「最初のマウススクロールがあるまで」とのこと。検索結果が出てその一ページ目で色々やってる部分をそう定義しているということですな。

予測で使う feature に関しては以下の注意がある。

初期段階ではマウスのクリック数と最初のマウスオーバー時間は効果なさそうなので使わない
query ベースでやりたいので query reformulation は使わない

feature を GBDT に突っ込んで 10-fold Cross Validation で評価。結果は以下。

ちなみにベースラインは majority class に全部寄せるというもの。それよりは有意に良く当てることができる、という結果。ただしやはりというか何と言うかそこまではっきりとは区別できない。初期段階のデータだけだから有意に違いが出た、というだけで十分な研究成果だということだろう。

yoheikikuta commented 6 years ago

一通り読んでみた。久々に数式とか全然使わない論文を読んだ気がする。現代のデータ分析系の研究とは少し趣が異なる（大したデータ量じゃない）が、しっかりと問題設定とその検証を行っているとは思う。有り体に言って良く書けている。結果も明瞭で理解しやすいが、インパクトに欠ける部分はあるかも。

future work は初期状態に限らない解析や異なる意図に対する re-ranking など。

yoheikikuta / paper-reading

[1711.09559] Why People Search for Images using Web Search Engines [paper-reading] #8

論文リンク

公開日（yyyy/mm/dd）

概要