一言でいうと

2 の4.4節にて参照された論文。そちらでは画像の特徴量構成を参照している。

Fill-in-the-blankとVisual Paraphrasingという２つのNLPタスクを導入。前者は問題文に正しく続く文を選択肢から選ぶもの。後者は２つの文章が与えられ、その２つの示すシーンが同じものであるかを答えさせるもの。したがって、問題形式としては前者は複数からの択一、後者は二者択一(binary) 問題に答えるには、前者では問題文からどのような展開がありうるかを想像する能力、後者では２つの問題文の情景を想像し比較する能力が必要になり、こうした能力をCommonSenseと呼んでいることになるだろう。タスク自体は完全にテキスト情報に閉じたものになっている。

一方で、データセット自体はAbstractSceneに対応する形で問題が用意されている。 (AbstracrScene：簡単なイラスト。オブジェクトが素材として用意されており、x,y座標と奥行き(z軸)を指定してイラストを生成することが可能。)

これらのタスクに対する、テキスト情報に閉じたベースラインモデルを提供するとともに、提案手法として問題で与えられた文からAbstractSceneを生成させ、それを利用するものを提案した。

コードとデータセットは公開。

(もととなるタスクがわかっていないのでイマイチよくわかっていない)

論文リンク

https://arxiv.org/abs/1502.06108

著者/所属機関

Xiao Lin, Devi Parikh

投稿日付(yyyy/MM/dd)

2015/02/21

wisteria2gp / DataScience_survey

Don't Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks #8

一言でいうと

2 の4.4節にて参照された論文。そちらでは画像の特徴量構成を参照している。

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント