e4exp / paper_manager_abstract

0 stars 0 forks source link

Towards Good Practices for Efficiently Annotating Large-Scale Image Classification Datasets #429

Open e4exp opened 3 years ago

e4exp commented 3 years ago

データは現代のコンピュータビジョンのエンジンであり、大規模なデータセットを収集する必要があります。 これにはコストがかかり、ラベルの品質を保証することが大きな課題となっている。 本論文では、大規模な画像コレクションのマルチクラス分類ラベルを収集するための効率的なアノテーション戦略を検討する。 学習されたモデルを利用してラベル付けを行う手法は存在するが、意外に普及しているのは、データごとに固定数のラベルを人間に問い合わせ、それらを集約する方法であり、これはコストがかかる。 本研究では、人間のアノテーションと機械が生成した信念のオンライン共同確率モデルに関する先行研究を基に、人間のラベル付け作業を最小化するための修正とベストプラクティスを提案する。 具体的には、自己教師付き学習の進歩を利用し、アノテーションを半教師付き学習問題として捉え、落とし穴を特定して軽減し、いくつかの重要な設計上の選択を排除して、ラベリングの効果的なガイドラインを提案する。 今回の分析は、人間のラベラーに問い合わせを行うという、より現実的なシミュレーションで行われており、既存の作業者シミュレーション手法を用いた評価の問題点を明らかにしています。 ImageNet100の125k画像サブセットを用いたシミュレーション実験では、1画像あたり平均0.35回のアノテーションで80%のトップ1精度のアノテーションが可能であることを示しており、先行研究や手動アノテーションと比較してそれぞれ2.7倍、6.7倍の改善を実現しています。 プロジェクトページ:このhttpsのURL

https://fidler-lab.github.io/efficient-annotation-cookbook

e4exp commented 3 years ago
  1. はじめに

機械学習の基本単位であるデータは、学習ベースのアプリケーションの成功に多大な影響を与えます。 近年のA.I.革命の多くは、ImageNetデータセット[12]の作成に起因しています。 ImageNetデータセットは、大規模な深層学習[25]を用いて画像分類を行うことで、元のデータセットを超えるドメインやタスクに移行できる強力な特徴抽出器を学習できることを示しました。 ImageNetは、引用数を代用すると、これまでに少なくとも4万件の研究プロジェクトをサポートしてきました。

ImageNetは、そのサイズ、多様性、ラベルの質から、下流のタスクの事前学習用データセットとしては、他に類を見ないものです。 その構想以来,多様なタスクやドメインに対応する大規模なデータセットの作成に対する関心が急速に高まっている. 例えば,自動運転[15, 3]や医用画像[45]などの分野における,物体検出[48],行動認識[10],3D再構成[32, 6]などが挙げられます. ImageNet とその後継である OpenImages [26]は、ウェブ上の検索エンジンを用いてデータを収集し、検索クエリ用語または自動生成されたラベルのいずれかを人間が検証しています。 このように、ImageNetのラベリングは、「この画像は本当にこのクラスに属するのか」という検証タスクとして定式化されており、規模に応じた効率的なアノテーションが可能となっている。 ImageNetのラベリングとは対照的に、多くの実用的なユースケースでは、対象となるデータとラベルが事前にわかっていることが多い。 これは、上記のように、オンラインでキーワードを検索して任意の画像を利用する場合とは異なります。

実際に使われている一般的なアプローチは、データごとに固定数のラベルを取得するために人間に問い合わせ、それらを集約するというものである[29, 22]。 これは,データごとに必要な労力が同じであることを前提としているため,大規模なデータセットでは法外なコストがかかり,人的資源の利用効率が悪くなる可能性がある. 本研究では、先行研究を基に、最新の学習手法を統合して、大規模なマルチクラス分類のアノテーション効率を向上させることを検討する。 最近の研究[2]では,学習した分類器をDSモデル[11]にオンラインで統合することを検討した. この手法では,作業者のスキルとラベルの不確実性を原理的にオンラインで推定することができます. これにより,別の人間にデータを照会すべきかどうかを判断することができる. 我々はこのフレームワークに従うが、ユーザーインターフェースの設計[13]や最適なタスク割り当ての計算[20]などの方向性が補完的な利益をもたらすことに留意する。

繰り返し問い合わせ可能なワーカーのプールを持つことで、時間の経過とともにスキルの推定が向上し、また、ワーカーがマイクロタスクを行い、その存在が一時的なものであるクラウドソーシングでよく見られるアノテーションノイズを軽減することができます。 そのため,本研究では,固定のワーカープールに焦点を当てることにした. 本研究では,まず,自己教師付き学習の進歩を本研究の設定に統合することを検討する. 次に、オンラインラベリングを半教師付き問題として捉え、その結果としての効率化を示す。 これらの追加機能は、時に負のフィードバックサイクルにつながる可能性があるが、我々はこれを特定して改善する。

最後に、実務者のツールチェーンへの導入を促進するために、いくつかの重要な設計上の選択を排除し、一連のグッドプラクティスとガイドラインを提供します。 本研究では,人間のアノテーターから統計情報を収集するという,より現実的なアノテーターシミュレーションを提案することで,人間を使った大規模な実験にかかる費用を回避しています. 先行研究[2, 42]では、すべての実験で大量の人間のラベルを収集しており、

1)個々の実験規模が小さくなり、 2)これらのラベルが利用できず、 収集に費用がかかるため、さらなる研究の障害になっています。

また、[42]では、大規模なラベルセットに対する効率的なマルチクラスアノテーションを検討しており、ワーカーの能力の効率的な因数分解と学習に焦点を当てています。 これは重要であり、我々が行っている学習方法の統合の研究とは直交している。 要約すると、我々は以下のような貢献をしている。

ImageNet [12]の様々な難易度のサブセットで実験を行いました. ImageNetの100クラスのサブセットでは,画像あたり0.98のアノテーションで,87%のトップ-1ラベル精度を示した. 80%のトップ-1ラベル精度は,画像あたり0.35個のアノテーションを必要とし,先行研究と比較して2.7倍,手動アノテーションと比較して6.7倍の削減となった. 人間のアノテーションを用いた小規模な実験では,2倍少ないアノテーションで91%のラベル精度を達成した.

e4exp commented 3 years ago
  1. 考察と結論

大規模なマルチクラスのデータセットに対して、改良されたオンライン・ラベリング手法を紹介した。 125k枚の画像とImageNetからの100個のラベルを用いた現実的なシミュレーション実験では、80%のトップ-1ラベル精度を達成するために必要なアノテーションを、先行研究と比較して2.7倍削減することができました。 我々のフレームワークは、画像あたり0.98個のラベルで87.4%のトップ1精度を達成しました。 今回の改良に伴い、今後の研究のための未解決の問題があります。

1)我々のシミュレーションは完璧ではなく、個々の画像の難易度を考慮せず、クラスの混乱のみをモデル化しています。 2)自動車の視野角を分類するような、意味的なクラスを超えたラベリングをどのように加速するか? 3) ImageNetには明確なラベル階層があり、これを利用して作業者のスキル推定における直交利益[42]を得ることができる。 4)提案モデルでは、[2]で示したように、アノテーションの尤度を適切にモデル化することで、分類を超えることが可能です。]しかし、ループ内での学習を用いてこれらを加速するには、タスクごとに詳細な注意を払う必要があり、これは将来の研究のためのエキサイティングな手段である。 5) 最後に、学習の改善が大きな助けとなる大規模なアノテーションについて説明しました。

これらを小規模なデータセットに適用するにはどうすればよいのでしょうか。 これらの疑問については付録で詳しく説明し、これらの方向性でのさらなる研究を促進するためのコードベースを公開します。

e4exp commented 3 years ago

image