e4exp / paper_manager_abstract

0 stars 0 forks source link

CIDEr: Consensus-based Image Description Evaluation #370

Open e4exp opened 3 years ago

e4exp commented 3 years ago

画像を自動的に文章で記述することは,コンピュータビジョンや自然言語処理の長年の課題である. 近年、物体検出、属性分類、行動認識などの分野で進歩が見られ、この分野への関心が高まっています。 しかし,説明文の品質を評価することは困難であることがわかっている. 本研究では,人間のコンセンサスを利用して画像の記述を評価する新しいパラダイムを提案する. このパラダイムは、人間のアノテーションを収集してコンセンサスを測定する新しいトリプレットベースの手法、コンセンサスを捉える新しい自動化指標(CIDEr)、および2つの新しいデータセットの3つの主要部分から構成される。 CIDErは、各画像を説明する50の文章を含む2つの新しいデータセット、PASCAL-50SとABSTRACT-50Sで構成されています。 CIDErは、様々な情報源から生成された文章を対象に、人間が判断したコンセンサスを既存の指標よりもよく捉えることができる。 また、この新しいプロトコルを用いて、5つの最新の画像記述アプローチを評価し、今後の比較のためのベンチマークを提供します。 CIDEr-Dと名付けられたCIDErのバージョンは、MS COCOの評価サーバーの一部として提供されており、体系的な評価とベンチマークを可能にしています。

e4exp commented 3 years ago
  1. はじめに

近年、物体認識[15]、属性分類[23]、行動分類[26, 9]、クラウドソーシング[40]などの進歩により、より高度なシーン理解問題を解決することへの関心が高まっている。 そのような問題の一つに,画像の人間らしい記述を生成することがある. この分野への関心が高まっているにもかかわらず,自動化されたアプローチによって生成された新しい文章の評価は依然として困難である. 評価は、進歩を測り、技術水準の向上に拍車をかけるために重要です。 このことは,検出[13, 7],セグメンテーション[13, 28],ステレオ[39]など,コンピュータビジョンのさまざまな問題ですでに示されている. 既存の画像記述の評価指標は、いくつかの望ましい特性を測定しようとしている。 これらの特性には、文法性、重要性(主要な側面をカバーすること)、正しさ/真実性などがあります。 これらの特性は,人間の研究を用いて,例えば,1から5までの独立した尺度で測定されたり[29, 37, 43, 11],ペアワイズの尺度で測定されたりする[44]. 残念ながら,これらの様々な結果を一つの文の質の尺度にまとめることは難しい. また,他の研究[22, 18]では,被験者に文の全体的な質を判断させている. 画像の説明を人間が判断する際には,重要でありながら自明ではない特性が存在する. 本研究では,大多数の人が画像をどのように表現しているかという大多数の意見に対する文章の類似性を測定する,新しいコンセンサスベースの評価プロトコルを紹介する(図1).

image

この評価プロトコルの1つの実現方法は、候補文と人間が提供したグランドトゥルース文との間の文の類似性を人間の被験者が判定するというものである。 被験者には「2つの文章のうち、どちらがこの文章に似ているか」という質問を投げかける。 結果として得られる品質スコアは、人間が生成した文とより類似しているとラベル付けされた文の頻度に基づいています。 相対的な質問であることが、タスクの客観性を高めています。 同様のプロトコルが、画像の類似性に関する人間の知覚を把握するために[41]でどのように使用されたか、読者に確認することをお勧めします。 これらの類似性のアノテーションプロトコルは,心理物理学でよく使われる2AFC (two alternative forced choice) [3]のインスタンスとして理解することができます.

人間による研究は、コストが高く、再現が難しく、評価に時間がかかるため、自動評価指標が望まれています。 実際に役立つためには,自動評価指標が人間の判断とよく一致する必要がある. 画像の説明文評価に用いられる一般的な評価指標としては,機械翻訳の分野ではBLEU [33](precision-based),要約の分野ではROUGE [45](recall-based)がある. しかし,これらの評価指標は,人間の判断との相関性が低いことがわかっている[22, 11, 4, 18]. 説明文の全体的な品質を判断するタスクでは,METEOR [11] メトリクスが人間とのより良い相関を示している. 他の指標は,キャプションのランキングに依存しており[18],新規の画像説明を評価することはできない. 我々は,画像説明文の品質に関する新しい自動コンセンサス指標であるCIDEr (Consensus-based Image Description Evaluation)を提案する. この指標は、人間によって書かれたグランド・トゥルース・センテンスのセットに対して、生成されたセンテンスの類似性を測定するものである。 この指標は、人間が評価したコンセンサスと高い一致を示します。 文章の類似性を利用することで、文法性、重要性、重要度、精度(precisionとrecall)といった概念が、本指標によって本質的に理解されます。

画像記述アプローチの評価によく用いられる既存のデータセットでは,1つの画像に対して最大5つの記述しかできない[35, 18, 32]. しかし,「大多数」の人間がどのように画像を記述するかを測定するには,5つの文章では不十分であることがわかった. そこで,PASCAL-50SとABSTRACT-50Sの2つのデータセットを用いて,画像1枚あたり50個の記述を含む評価を行うことにした. PASCAL-50Sデータセットは、UIUC Pascal Sentence Datasetをベースにしており、1つの画像に5つの説明文が含まれています。 このデータセットは,多くの作品で学習とテストの両方に使用されている[29, 22, 14, 37]. ABSTRACT-50Sデータセットは、Zitnick and Parikh [46]のデータセットに基づいています。 これまでの手法では,5つの文を用いて評価していたが,我々は1から∼50の参照文を用いて評価する. この結果を受けて,MS COCOのテスト用データセットには,5Kの画像と40の参照文が含まれており,自動測定の精度を向上させている[5].

貢献度 本研究では,コンセンサスに基づく画像説明文の評価プロトコルを提案する. 人間が判断するための新しいアノテーションモダリティ,新しい自動化された指標,そして2つの新しいデータセットを紹介する. また,5つの最先端の機械生成アプローチ[29, 22, 14, 37]の性能を比較した. 我々のコードとデータセットは著者のウェブページで公開されている。 最後に、本プロトコルの採用を促進するために、新たにリリースされたMS COCOキャプション評価サーバ[5]のメトリックとしてCIDErを利用できるようにしました。

e4exp commented 3 years ago

image

  1. 3.コンセンサスインターフェース

画像とそれを説明する人間が生成した参照文のコレクションが与えられた場合、我々のコンセンサスベースのプロトコルの目的は、ほとんどの人が画像を説明する方法(すなわち参照文)の過半数に対する候補文の類似性を測定することです。 このセクションでは、グランドトゥルースコンセンサススコアを生成するための、人間による研究プロトコルについて説明します。 7章では、これらのグランドトゥルーススコアを用いて、我々が提案するCIDErメトリックを含むいくつかの自動メトリックを評価する。 図2に、我々の人間学習インターフェースの例を示す。

被験者には3つの文章が表示されています。 被験者は、A、B、Cの3つの文を見せられ、2つの文(BまたはC)のうちどちらが文Aに最も似ているかを選ぶよう求められる。 BとCの選択ごとに、画像のすべての参照文を使って3つの組を形成する。 我々は「類似性」の明確な概念を提供していない。 興味深いことに、文章が画像の説明であることを明示していないにもかかわらず、作業者からは「シーンを想像して選択している」というコメントがあった。 2つの文章、BとCのどちらがAに似ているか」という相対的な課題にすることで、より客観的な評価が可能になります。

e4exp commented 3 years ago
  1. CIDEr Metric

我々の目的は、画像I_iに対して、候補文ciが画像説明のセットSi = {si1, ... ... , sim}のコンセンサスにどれだけマッチしているかを自動的に評価することである。, 文章中のすべての単語(候補文と参照文の両方)は,まず,その語幹または根元の形にマッピングされます. 例えば,"fishes","fishing","fished "はすべて "fish "に変換される. 各文は、その中に存在する n-gram のセットを使って表現します。 n-gram ωkは、1つ以上の順序付けられた単語の集合です。 本論文では、1〜4個の単語を含むn-gramを使用します。 直感的に言えば、コンセンサスの指標は、候補文に含まれるn-gramが参照文にどのくらいの頻度で存在するかをコード化します。 同様に、参照文に存在しないn-gramは候補文には存在しないはずである。 最後に、データセット内の全ての画像に共通して存在するn-gramは、情報量が少ないと思われるので、低い重みを与えるべきである。 この直感を符号化するために、各n-gramに対してTF-IDF(Term Frequency Inverse Document Frequency)の重み付けを行う[36]。 n-gram ωk が参照文 sij に出現する回数を hk(sij ) とし、候補文 ci の場合は hk(ci) とする。 各n-gram ωkのTF-IDF重み付けgk(sij )を以下の方法で計算する。

image

ここで、Ωはすべてのn-gramの語彙であり、Iはデータセットのすべての画像の集合である。 第1項は各n-gram ωkのTFを測定し、第2項はIDFを用いてωkの希少性を測定します。 直感的には、TFは、画像を説明する参照文に頻繁に出現するn-gramに高い重みを置き、IDFは、データセットのすべての画像に共通して出現するn-gramの重みを減らします。 つまり、IDFは、視覚的な情報が少ないと思われる人気のある単語を割り引くことで、単語の重要度を測定します。 IDFは、データセットの画像数|I|を、ωkが参照文のいずれかに出現する画像数で割った対数を用いて計算されます。

長さnのn-gramに対するCIDErnスコアは、候補文と参照文の平均コサイン類似度を用いて計算され、precisionとrecallの両方を考慮しています。

image

ここで,g n(ci)は長さnのすべてのn-gramに対応するgk(ci)で形成されるベクトルであり,kg n(ci)kはベクトルg n(ci)の大きさである. g n(sij )についても同様です. 私たちは、より高次の(より長い)n-gramを使用して、文法的な特性だけでなく、より豊かなセマンティクスも捉えます。 様々な長さのn-gramのスコアを以下のように組み合わせます。

image

経験的に、一様な重みwn=1/Nが最も効果的であることがわかりました。 我々はN = 4を使用しています。

e4exp commented 3 years ago
  1. 新しいデータセット

画像キャプション生成手法を評価するために,PASCAL-50SとABSTRACT-50Sという2つの新しいデータセットを提案する. どちらのデータセットも,1,000枚の画像と500枚の画像に対して,それぞれ50の参照文を持っています. これらのデータセットは「テスト用」データセットとして、コンセンサスベースの評価ができるように作られています。 学習データセットのリストについては,[25, 32]を参照していただきたい. PASCAL50S データセットは,UIUC Pascal Sentence Dataset [35] からの 1,000 枚の画像をすべて使用しており,ABSTRACT-50S データセットは,Abstract Scenes Dataset [46] からの 500 枚のランダムな画像を使用している. ABSTRACT-50Sデータセットは,Abstract Scenes Dataset[46]から500枚のランダムな画像を用いている. この2つの新しいデータセットは,視覚的にも,生成される画像説明のタイプにおいても,互いに異なっています. 我々の目標は,客観的で,画像の内容を代表するような画像説明を集めることである. 被験者は,画像とテキストボックスを見せられ,「画像の中で起こっていることを説明してください」と尋ねられました. 被験者には、シーンの主要な部分を捉え、他の人も提供しそうな説明をしてもらいました。 これには、「ダイアログ」や過度に説明的な文章ではなく、説明文を書くことが含まれます。 良い説明文とは、他の人が同じような画像の集まりの中からその画像を認識できるようなものでなければならない、と作業者には伝えました。 また、文法が不十分なものは却下されるとのことでした。 インターフェイスのスナップショットは、付録に掲載しています。 全体として,ABSTRACT-50Sでは465人,PASCAL50Sでは683人の被験者が参加しました. このデータセットでは,1つの画像に対するそれぞれの文章が異なる被験者によって書かれていることを確認した. ABSTRACT-50Sデータセットの平均文の長さは10.59語であるのに対し,PASCAL-50Sでは8.8語となっています.

e4exp commented 3 years ago
  1. 実験セットアップ

本実験の目的は以下の2点である。

候補となるセンテンス ABSTRACT-50Sでは、50センテンスのうち48センテンスを参照センテンスとして使用します(トリプレットアノテーションのセンテンスA)。 残りの2文は候補文として使用することができる。 その結果、400組の候補文(トリプレットアノテーションのBとC)ができました。 これには2種類のペアがある。1つ目は、200組の人間-人間の正しいペア(HC)で、同じ画像を説明する2つの人間の文章を選ぶ。 2つ目は、200組の人間-人間の不正解ペア(HI)で、片方の文章は画像を説明する人間の文章で、もう片方の文章はデータセットからランダムに選ばれた他の画像を説明する人間の文章です。 PASCAL-50Sでは、UIUC Pascal Sentence Datasetに含まれる人間の文章と、5つの自動画像説明法で生成された機械の文章という、様々なソースから候補となる文章を抽出しました。 これらは、検索ベースの方法と生成ベースの方法の両方を含んでいます。

Midge [29]、Babytalk [22]、Story [14]、そしてTranslating Video Content to Natural Language Descriptions [37]の2つのバージョン(VideoとVideo+)4を用いて、4,000組の候補文を作成した(トリプレットアノテーションのBとC)。 これらには、4種類のペア(各1,000)が含まれる。 最初の2つは、ABSTRACT-50Sと同様に、人間-人間の正解(HC)と人間-人間の不正解(HI)である。 3つ目は、画像を説明する人間の文章と、同じ画像を説明する機械で生成された文章をペアにして形成された人間-機械(HM)のペアです。 最後の4つ目は,機械-機械(MM)のペアで,同じ画像を説明する2つの機械生成文を比較するものである. 各手法がほぼ同数のペアに参加するように、機械生成文をランダムに選び、多様な画像セットを対象としています。 このように,異なる種類の文章を用いて総合的な評価を行ったのは,我々が初めてである. 一貫性を持たせるため,PASCAL-50Sの評価では2つの参照文を削除し,最大48の参照文で両データセット(ABSTRACT-50SとPASCAL-50S)の評価を行った.

メトリクス

画像記述アプローチの評価には,BLEU [33],ROUGE [45],METEOR [1]などの既存のメトリクスが用いられている. BLEUは精度ベースで、ROUGEは再現ベースです。 具体的には,BLEUはBLEU1とBLEU4,ROUGEはROUGE1と呼ばれるバージョンが使用されている. 最近の調査論文[12]では、ROUGESと呼ばれるROUGEの異なるバージョンや、METEORと呼ばれる機械翻訳メトリクスが使用されています[1]。 ここでは、これらのメトリクスについて簡単に説明します。 詳細は付録に記載されています。 BLEU(BiLingual Evaluation Understudy)[33]は、機械翻訳(MT)評価のための一般的なメトリックです。 BLEUは、候補文の参考文献に対するn-gramベースの精度を計算します。BLEUの重要なアイデアは、クリッピングによって精度を計算することである。 クリッピングとは、ある単語が参照文に出現する最大回数に基づいて、その単語の精度を計算することである。 したがって、「The The The」と書かれた候補文は、その単語が個々の参照文の中で最大1回しか出てこなければ、「The」は1回しか書かれていないと評価されます。 BLEUは、n-gramの精度の幾何平均を計算し、短すぎる文章を阻止するために簡潔さのペナルティを加えます。 BLEUの最も一般的な形式はBLEU4で、1-gramから4-gramまでを使用しますが、BLEU1(unigram BLEU)やBLEU2(unigram and bigram BLEU)のような低次のバリエーションも使用されます。 BLEUは、[12, 18]の画像評価と同様に、文レベルで計算します。 機械翻訳の場合、BLEUは人間の判断との相関性が高いコーパスレベルで計算されることが多く、個々の文のレベルでは相関性が低い。

この論文では、特に個々の文での精度の評価に注目しています。ROUGEはRecall Oriented Understudy of Gisting Evaluationの略である[45]。 これは、候補文の参考文献に対するn-gramベースのリコールを計算する。 これは、要約評価のための一般的な指標である。 BLEUと同様に、ROUGEのバージョンは、n-gramカウントを変化させて計算することができます。 ROUGEの他の2つのバージョンは、ROUGESとROUGELです。 これらは、候補文と各参照文の間のスキップバイグラムと最長共通部分配列を用いて、リコールバイアスのかかったF尺度を計算します。 スキップバイグラムとは、文の中で順序付けられたすべての単語のペアで、連続していない状態でサンプリングされたものです。 これらのスコアが与えられた場合,品質の判断として,参照文のセット全体での最大スコアを返します。

METEORは,Metric for Evaluation of Translation with Explicit ORdering [1]の略です. ROUGELやROUGESと同様に,マッチに基づいてF-measureを計算し,リファレンスのセットにおける最大スコアを品質の判断として返す. しかし、完全一致、ステミング、意味的類似性を用いて、より洗練された方法で単語レベルの対応関係を解決します。 チャンキネスを最小化するマッチに最適化します。 チャンキネスの最小化とは、可能な限りマッチを連続させることを意味します。 また、F-measureの計算において、精度よりもリコールを優先するパラメータを設定します。 我々は、METEORを除くすべてのメトリクスを実装しました。 BLEUと同様、METEORのスコアも文レベルで集計しています。

機械のアプローチ どの機械記述法がコンセンサス文のマッチングに最も適しているかを総合的に評価する。 この実験では,UIUC Pascal Sentence Datasetから100枚の画像のサブセットを選択し,評価に用いた5つの機械記述法のすべての出力を得る. Midge [29]、Babytalk [22]、Story [14]、そしてTranslating Video Content to Natural Language Descriptions [37]の2つのバージョン(VideoとVideo+)。 各画像について,5C2組のマシン・マシン・センテンスをすべて形成する. これにより,各画像において,それぞれの機械的アプローチが他のすべての機械的アプローチと比較されることになる. これにより,1,000組のペアが得られる.各ペアを20個のランダムな参照文で "3倍 "にすることで、3つのペアを形成する。 トリプレットアノテーションを用いて人間が判断したコンセンサスを収集するとともに、同じ参照文を用いて提案した自動コンセンサス指標CIDErを評価する。 どちらの場合も、ある機械記述法が他の機械記述法よりも参照文に類似していると判断された回数を数えます。 我々の知る限りでは、画像の自動キャプション付けを、検索や生成に基づく手法を含めて徹底的に評価したのは、我々が初めてである。

e4exp commented 3 years ago
  1. 結果

本節では、PASCAL-50SおよびABSTRACT-50Sデータセットにおいて、我々のコンセンサスベースのメトリックCIDErの有効性を評価する。 まず、我々のコンセンサスメトリクスを確実に評価するためには、どの程度の文数があれば十分なのかを検討することから始める。 次に、人間のコンセンサスをマッチングするタスクにおいて、我々のメトリックを他の一般的なメトリックと比較します。 次に、CIDErを用いて、いくつかの既存の自動画像記述アプローチを評価する。 最後に、人間とCIDErのコンセンサス予測の性能を比較する。

e4exp commented 3 years ago

7.1. 何文あればいいのか?

まず、参照文の数が自動化メトリクスの精度にどのように影響するかを分析します。 これを定量化するために、UIUC Pascal Sentence Datasetからランダムにサンプリングされた50枚の画像のサブセットに対して、120のセンテンスを収集します。 そして、人間と人間の正解文、人間と機械の正解文、機械と機械の正解文、人間と人間の不正解文のペア(合計179組)をプールし、トリプレットアノテーションを取得します。 これにより、すべてのペアのグランドトゥルースコンセンサススコアが得られます。 BLEU1、ROUGE1、CIDEr1の評価は、候補文のスコア付けに100個までの参照文を用いて行う。 その結果、すべての評価指標において、最初の10文で精度が向上することがわかりました(図7)。 1文から5文までは、ROUGE1の一致度が0.63から0.77に向上しています。 ROUGE1、CIDEr1ともに50文に達するまで向上し続け、その後は結果がやや飽和し始めます。 不思議なことに、BLEU1は文数が増えるにつれて性能が低下しています。 BLEUは文レベルのマッチに対して最大演算を行うため、使用する文の数が増えると、質の低い参照文とマッチする可能性が高くなります。 この実験結果に基づいて,ABSTRACT-50SおよびPASCAL50Sデータセットでは,1画像あたり50文を収集しました. 残りの実験では,1文から50文を用いた結果を報告する.

7.2. 自動化メトリクスの精度

CIDEr, BLEU, ROUGE, METEORの人間のコンセンサススコアとのマッチング性能を図11で評価する。 すなわち、各メトリクスについて、2つの候補文のスコアを計算する。 スコアが高い方の文が,人間の研究によって参照文との類似性が高いと判断された文と同じであれば,その評価指標は正しいことになる. 候補文は,人間が作成したものと機械が作成したものがあります. BLEUとROUGEについては、一般的なバージョンと、我々が最高の性能を発揮すると判断したバージョンの両方を示しています。 METEORは、実行時間が長いため、サンプル数が少なくなっています。 各指標の異なるバージョンでのより包括的な評価については、付録を参照してください。 48文の時点では、ABSTRACT-50SとPASCAL50Sの両方において、CIDErが最も優れた性能を発揮していることがわかります。

これに続くのがMETEORである。CIDErとMETEORは、わずか5文でもBLEUやROUGEと比較して良い結果を出しています。 ABSTRACT-50SではCIDErが5文でMETEORに勝っているのに対し、PASCAL50SではMETEORが5文で良くなっている。 これは、METEORがソフト類似性を取り入れているため、少ないセンテンス数でも効果があるためです。 しかし、METEORは、その洗練された機能にもかかわらず、参照スコア全体で最大となるため、より多くの参照文を利用する能力に限界があります。 ROUGE1やBLEU1のような一般的なメトリクスは、コンセンサスを捉えるのには適していません。 CIDErは、PASCAL-50Sで84%、ABSTRACT-50Sで84%の精度を示し、両データセットで一貫した性能を発揮した。 これまでの論文では1枚の画像に対して5つの参照文しか評価に使われていなかったことを考えると、相対的な性能の向上は相当なものです。 BLEU1やROUGE1を用いて5文で評価した場合、PASCAL-50Sでは76%の精度、ABSTRACT-50Sでは74%の精度が得られました。 一方、CIDErを48文で使用した場合は84%の精度を達成しています。 これにより、自動評価は人間のパフォーマンス(90%、詳細は項7.4)に大きく近づきました。 Flickr8Kデータセット[18]において、人間が1〜5の評価を判断した場合、METEORは0.56の相関(Spearman's ρ)を示している[12]のに対し、CIDErは人間の判断と0.58の相関を達成しています。

次に、PASCAL50SとABSTRACT-50Sにおいて、異なる種類の候補ペアに対して、それぞれCIDEr, BLEU, ROUGE, METEORというメトリクスの最高性能バージョンを示す(表1)。 5章で述べたように、我々は4種類のペアを用意した。(human-human correct) HC, (human-human incorrect) HI, (human-machine) HM, (machine-machine) MMの4種類である。 その結果,6つのケースのうち,5つのケースで我々の提案する自動化された指標が最も優れていることがわかった. 文章間の細かな違い(機械で生成された2つの文章と人間が生成した2つの文章)を区別するという、難易度の高いMMとHCのタスクでは、大きな利益を得ることができました。 この結果は、画像の記述方法が改善されていく中で、CIDErメトリックが今後も高い性能を発揮することを示しており、心強い限りです。 HIとHMのペアのコンセンサスを判断するという、より簡単なタスクでは、すべての手法が良い結果を出しています。

image

image

e4exp commented 3 years ago

7.3. どのような画像記述の自動化アプローチがコンセンサスのある記述を生み出すか?

私たちは、CIDErと、画像ごとに50文を含む新しいデータセットが、これまでのアプローチよりも正確な指標を提供することを示しました。 ここでは、CIDErを用いて、既存の画像自動記述アプローチを評価する。 この実験を行うための方法論は6章で述べる。実験結果を図12に示します。 ここでは,あるアプローチが他のアプローチよりも優れていると評価された割合をY軸に示している. Midge [29]が人間とCIDErの両方から最も良いコンセンサスを得ていると評価され、次いでBabytalk [22]が評価されていることがわかる。 Story [14]は人間とCIDErの両方から最下位に評価されている。 人間とCIDErは、2つのビデオアプローチ(VideoとVideo+)[37]のランキングについて異なる。 我々は人間のアノテーションとCIDErを用いた手法の勝率の間のピアソンの相関を計算した。 その結果、人間とCIDErは高い相関性(0.98)で一致していることがわかった。

7.4. 人間のパフォーマンス

最後の実験セットでは、2つの候補文のうちどちらがコンセンサスとよりよく一致するかを予測する人間のパフォーマンスを測定します。 人間のパフォーマンスは、コンセンサスがどれだけ明確に定義されているかを示すものであり、自動化されたメトリクスがどれだけのパフォーマンスを期待できるかについての緩やかな境界を提供するものである。 PASCAL-50Sデータセットの4,000組と、6章で述べたABSTRACT-50Sデータセットの400組について、コンセンサスを予測する際の人間と機械の両方のパフォーマンスを評価した。 人間と機械が同じ実験環境を作るために、48個の参照のうち24個の参照について、我々のトリプレットアノテーションを用いて各ペアのグランドトゥルースコンセンサスを得る。 コンセンサスを予測するために,人間(トリプレットアノテーションを使用)と機械の両方が残りの24文を参照文として使用する. CIDErを用いたPASCAL-50Sのデータでは、機械の性能は82%であり、人間の性能が90%であるのとは対照的であることがわかった。 ABSTRACT-50Sデータセットでは、CIDErが82%の精度を示したのに対し、人間の性能は83%であった。

e4exp commented 3 years ago
  1. ゲーム性と評価サーバ

ゲーム性 特定の指標にアルゴリズムを最適化すると、望ましくない結果になることがある。 メトリクスの「ゲーム性」により、高いスコアの文章が得られても、人間が判断すると悪い結果になることがある。 CIDErメトリクスの将来的なゲーミングを防ぐために、我々はCIDEr-Dと呼ばれる基本的なCIDErメトリクスにいくつかの修正を加えることを提案する。 まず、ステミングを削除することを提案する。 ステム処理を行うと、名詞の単数形と複数形、動詞の異なる時制が同じトークンにマッピングされます。 ステム処理を削除することで、正しい形の単語が使用されるようになります。 次に、信頼度の高い単語が長い文章の中で繰り返されると、基本的なCIDEr指標では高いスコアが得られる場合があります。 この影響を軽減するために、候補文と参照文の長さの差に基づいたガウス型のペナルティを導入します。 最後に、文の長さのペナルティは、希望の文の長さになるまで、自信のある単語やフレーズを繰り返すことで、利用される可能性があります。 これに対しては、CIDErnの分子のn-gramカウントにクリッピングを加えることで対処します。 つまり、特定のn-gramについて、候補の出現数を参照の出現数にクリップするのです。 これにより、特定のn-gramが参照文での出現回数を超えて繰り返されることにペナルティが課せられます。 これらの変更により、以下の式(式2に類似)が得られます。

image

ここで,l(ci)とl(sij )はそれぞれ候補文と参照文の長さを表しています。 ここではσ=6を用いる。 CIDEr-Dのスコアが他のメトリクスと数値的に類似したものになるように、ファクター10を加えている。 最終的なCIDEr-D指標は、CIDErと同様の方法で計算される(式3に類似している)。

image

CIDErと同様に一様な重みを用いている。 このバージョンの指標は、オリジナルのCIDEr指標と0.94の順位相関(Spearman'sρ)を持ち、ゲームに対してよりロバストであることがわかった。 ランキングの定性的な例は付録にあります。

評価サーバー コンセンサスに基づく画像記述手法の体系的な評価とベンチマークを可能にするために、CIDEr-DをMS COCOキャプション評価サーバー[5]のメトリックとして公開しています。

e4exp commented 3 years ago
  1. 結論

本研究では,画像記述評価のためのコンセンサスベースの評価プロトコルを提案した。本プロトコルは、内容、文法、顕著性などの重み付けを恣意的に判断することなく、「人間らしさ」に基づいて機械生成アプローチを客観的に比較することを可能にする。 本研究では、コンセンサスを測定するためのアノテーションモダリティ、コンセンサスを自動的に計算するための指標CIDEr、および画像1枚あたり50文のPASCAL-50SとABSTRACT-50Sの2つのデータセットを紹介する。 CIDErは既存のコンセンサス測定基準よりも精度が向上していることを実証する。