e4exp / paper_manager_abstract

0 stars 0 forks source link

Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data #428

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本論文では、異なるが関連性のあるカテゴリからのラベルを持つシングルおよびマルチモーダルデータに対する新規カテゴリ発見の問題を研究する。 我々は、信頼性の高い表現を共同で学習し、ラベルのないデータにクラスタを割り当てるための汎用的なエンドツーエンドのフレームワークを提示する。 学習した埋め込みをラベル付きデータに過剰に適合させないために、我々は、ノイズ対照推定による自己教師付き表現学習からヒントを得て、ラベル付きデータとラベルなしデータを共同で扱うように拡張した。 特に、ラベル付きデータではカテゴリ判別、マルチモーダルデータではクロスモーダル判別を用いて、従来のコントラスト学習手法で用いられていたインスタンス判別を強化することを提案する。 さらに、Winner-Take-All (WTA)ハッシュアルゴリズムを用いて、ラベルのないデータにペアごとの疑似ラベルを生成し、クラスタ割り当てをより正確に予測する。 このフレームワークを、大規模なマルチモーダルビデオベンチマークであるKinetics-400とVGG-Sound、および画像ベンチマークで徹底的に評価した。

e4exp commented 3 years ago
  1. はじめに

深層学習の進歩に伴い,最近の機械学習モデルは,画像認識 [9, 28],物体検出 [49, 39],画像セグメンテーション [7]など,多くのタスクで優れた性能を示している. これらのタスクでは、最先端のモデルが人間を凌駕する可能性もありますが、これらのモデルの成功は、クローズドワールドを前提とした人間のアノテーションを含む膨大な量のデータに大きく依存しています。 すべてのカテゴリーを識別してアノテーションするにはコストがかかりますし、新しいカテゴリーが次々と登場する可能性もあります。 従来の手法では、新しいカテゴリーからのラベルのないデータの処理に苦労します[12]。 一方,現実世界では,豊富なラベルなしデータが提供されており,それらはしばしばマルチモーダル(ビデオやオーディオなど)であるため,機械学習モデルが人間と同様の方法で学習できる可能性が広がっている. 実際、人間は日常的にテキスト、ビデオ、オーディオなどのマルチモーダルデータから学習しています。 本論文では、オープンワールド環境で新しいカテゴリを発見するための自動学習に焦点を当てます。 いくつかのクラスのラベル付けされた画像から他のラベル付けされていない画像コレクションに知識を転送する最近の研究[16, 15]と同様に、我々は、他のカテゴリーのラベル付けされたデータが利用可能な場合に、未知のカテゴリーのラベル付けされていないデータを適切な意味的グループに分割するという問題を定式化する。 これは、様々な制約のない基準(例えば、画像をテクスチャ、色、照明などでクラスタリングすることができます)に従った場合、同じように有効なデータパーティションを生成する可能性がある純粋な教師なしクラスタリングや、ラベルのない新しいカテゴリからのラベルなしデータを扱うことができないクローズドワールド認識よりも、より現実的な設定です。 一方、我々の設定は、人間が既知のオブジェクトから知識を移すことで新しいオブジェクトの概念を容易に学ぶことができるという、人間の認知プロセスに近いものです。

具体的には、ラベル付きデータからラベルなしデータへより多くの知識を移行させつつ、ラベル付きデータとラベルなしデータの両方を活用して偏りのない特徴表現を構築することを目的とし、ラベルなしデータからカテゴリを発見するための柔軟なエンドツーエンドのフレームワークを紹介する。 特に、従来の対比学習[6, 17]を拡張し、インスタンス判別とカテゴリ判別の両方を考慮することで、ラベル付きデータとラベルなしデータ上で信頼性の高い特徴表現を学習することに成功した。 また、クロスモーダルな判別を行うことで、マルチモーダルなデータに対する表現学習がより有効になることを示す。 ラベルなしデータをより活用するために、共有表現空間にWinner-Take-All (WTA) ハッシュ [46]を採用し、ラベル付きデータからラベルなしデータへのロバストな知識伝達の鍵となるペアワイズ擬似ラベルをオンザフライで生成する。 この弱い擬似ラベルを用いて,ラベルなしデータに対する単純な二値クロスエントロピー損失と,ラベル付きデータに対する標準的なクロスエントロピー損失を用いてモデルを学習することができる. このようにして、我々のモデルは、統一された損失関数を用いて、特徴表現の学習とクラスタ割り当ての実行を同時に行うことができる。 本論文の主な貢献は以下のようにまとめられる。

(1) ラベル付きデータとラベルなしデータの両方で学習可能な、新奇なカテゴリー発見のための汎用的なエンド・ツー・エンドのフレームワークを提案する。 (3) ラベル付きデータとラベルなしデータの共有表現空間上でWTAハッシュを採用し、ラベルなしデータ上で追加の(擬似的な)監視を行う戦略を提案する。

e4exp commented 3 years ago

image

e4exp commented 3 years ago
  1. 結論

我々は、新規カテゴリー発見という困難な問題に取り組むための柔軟なエンドツーエンドのフレームワークを提示した。

まず,従来の対比学習を拡張し,ラベル付きデータとラベルなしデータを駆使して,インスタンス判別とカテゴリ判別を同時に行うこととした.

第二に、ラベル付きデータから非ラベル付きデータへの知識の移行を成功させるために、WTAハッシュアルゴリズムを用いて、非ラベル付きデータの学習用にペアワイズの弱い擬似ラベルを生成した。これは、学習後に非ラベル付きデータを適切なグループに自動的に分割するための鍵となる。

第三に、マルチモーダルデータに対して、コントラスト学習の様々な方法を検討し、クロスモーダルノイズのコントラスト推定が他のオプションよりも一貫して優れていることを経験的に発見しました。

最後に,我々のアプローチを,困難な画像やビデオのベンチマークで徹底的に評価し,すべてのケースで優れた結果を得た.