You Only Learn One Representation: Unified Network for Multiple Tasks

https://arxiv.org/abs/2105.04206
2021

人は視覚、聴覚、触覚、そして過去の経験によって世界を理解しています。人間の経験には、通常の学習によって得られるもの（明示的知識と呼ぶ）と、無意識のうちに得られるもの（暗黙的知識と呼ぶ）がある。通常の学習や無意識のうちに学んだこれらの経験は、エンコードされて脳に蓄積されます。これらの豊富な経験を巨大なデータベースとして利用することで、人間は見たことのないデータであっても効率的に処理することができる。本論文では、人間の脳が通常の学習だけでなく、潜在的な学習からも知識を学ぶことができるように、暗黙的な知識と明示的な知識を一緒にエンコードする統一ネットワークを提案する。統一されたネットワークは、統一された表現を生成し、様々なタスクを同時にこなすことができる。畳み込みニューラルネットワークにおいて、カーネル空間の整列、予測の精緻化、マルチタスク学習を行うことができます。その結果、暗黙的な知識をニューラルネットワークに導入すると、すべてのタスクのパフォーマンスが向上することが実証されました。さらに、提案された統一ネットワークから学習された暗黙的な表現を分析したところ、さまざまなタスクの物理的な意味をキャッチするのに大きな能力を発揮しました。この研究のソースコードは、このhttps URLにあります。

https://github.com/WongKinYiu/yolor

はじめに

図1に示すように、人間は同じデータをさまざまな角度から分析することができます。しかし、訓練された畳み込みニューラルネットワーク（CNN）モデルは、通常、単一の目的しか果たすことができません。一般的に言って、訓練されたCNNから抽出できる特徴は、通常、他の種類の問題への適応性が低い。上記の問題の主な原因は、ニューロンから特徴を抽出するだけで、CNNに豊富に存在する暗黙知が利用されていないことにある。実際の人間の脳が動作している場合、前述の暗黙知は脳がさまざまなタスクを実行するのを効果的に支援することができる。暗黙知とは、潜在意識の中で学習した知識のことを指す。しかし、暗黙知がどのように動作し、どのようにして暗黙知を得るのかについては、体系的な定義がなされていない。一般的なニューラルネットワークの定義では、浅い層から得られる特徴を「明示的知識」、深い層から得られる特徴を「暗黙的知識」と呼ぶことが多い。本論文では、観測に直接対応する知識を明示的知識と呼ぶ。また、観測とは関係なく、モデルに暗黙的に含まれる知識については、暗黙知と呼ぶことにする。本論文では、暗黙知と明示知を統合し、学習したモデルに一般的な表現を持たせ、その一般的な表現によって様々なタスクに適した下位表現を可能にする統一ネットワークを提案する。

図2(c)に提案するユニファイド・ネットワーク・アーキテクチャを示す。上記の統一ネットワークを構築する方法は，圧縮センシングと深層学習を組み合わせることであり，その主な理論的基礎は我々の過去の研究[16, 17, 18]に見られる． 16]では，拡張辞書を用いた残留誤差の再構成の有効性を証明している．また、[17, 18]では、スパース・コーディングを用いてCNNの特徴マップを再構成し、よりロバストにすることに成功しています。本研究の貢献度を以下にまとめます。

暗黙知と明示知を統合して一般的な表現を学習し、この一般的な表現によって様々なタスクを実行できる統合ネットワークを提案する。提案したネットワークは、非常に少ない追加コスト（パラメータや計算量の1万分の1以下）で、モデルの性能を効果的に向上させることができる。
暗黙知の学習プロセスに、カーネル空間整列、予測精密化、マルチタスク学習を導入し、その有効性を検証した。
暗黙知をモデル化するツールとして、ベクトル、ニューラルネットワーク、行列分解の利用方法をそれぞれ検討し、同時にその有効性を検証した。
学習した暗黙的表現が特定の物理的特性に正確に対応できることを確認し、それを視覚的に表現した。また、目的の物理的意味に適合する演算子があれば、暗黙知と明示的知識の統合に利用でき、乗数効果が得られることを確認した。
最先端の手法と組み合わせることで，我々の提案する統一ネットワークは，物体検出においてScaled- YOLOv4-P7[15]と同等の精度を達成し，推論速度は88%向上した．

暗黙知の仕組み

本研究の主な目的は、暗黙知を効果的に学習できる統一ネットワークを実施することであるため、まず、暗黙知をどのように学習し、フォローアップで素早く推論するかに焦点を当てる。暗黙的表現ziは観測とは無関係なので、定数テンソルZ = {z1, z2, ..., zk}の集合と考えることができる。本節では、定数テンソルとしての暗黙知がどのように様々なタスクに適用できるかを紹介する。

3.1. 多様体空間の縮小優れた表現は、それが属する多様体空間に適切な投影を見つけ、その後の目的のタスクを成功させることができるべきだと考えている。例えば、図3に示すように、投影空間内の超平面によって対象カテゴリの分類が成功すれば、それが最良の結果となります。上記の例では、投影ベクトルと暗黙的な表現の内積をとることで、多様体空間の次元を減らし、様々なタスクを効果的に達成するという目的を達成することができます。

3.2. カーネル空間のアライメントマルチタスク・マルチヘッドニューラルネットワークでは、カーネル空間のミスアライメントが頻繁に発生する問題で、図4(a)はマルチタスク・マルチヘッドNNにおけるカーネル空間のミスアライメントの例を示しています。この問題に対処するには、図4(b)に示すように、出力特徴と暗黙的な表現の加算と乗算を行い、カーネル空間を変換、回転、拡大縮小して、ニューラルネットワークの各出力カーネル空間を揃えるようにします。上記の動作モードは、特徴ピラミッドネットワーク（FPN）[8]における大きな物体と小さな物体の特徴の整合、大きなモデルと小さなモデルを統合するための知識蒸留の利用、ゼロショットのドメイン移行などの処理など、さまざまな分野で広く利用することができる。

3.3. その他の機能暗黙知は、さまざまなタスクに適用できる機能に加えて、さらに多くの機能に拡張することができます。図5に示すように、足し算を導入することで、センター座標のオフセットを予測するニューラルネットワークを作ることができます。また、乗算を導入することで、アンカーのハイパーパラメータセットを自動的に探索することができます。これは、アンカーベースの物体検出器でよく必要とされます。さらに、ドットの乗算と連結は、それぞれ、マルチタスクの特徴選択と、その後の計算のための前提条件の設定に使用することができます。

統一ネットワークにおける暗黙知

本節では、従来のネットワークと提案する統一ネットワークの目的関数を比較し、多目的ネットワークの学習に暗黙知の導入が重要である理由を説明する。同時に、本研究で提案する手法の詳細を説明する。

4.1. 暗黙知の定式化従来型のネットワーク。

従来のネットワーク学習の目的関数については、(1)を用いて以下のように表すことができる。

ここで、xは観測値、θはニューラルネットワークのパラメータセット、fθはニューラルネットワークの動作を表し、誤差項、yは与えられたタスクの目標値です。従来のニューラルネットワークの学習過程では、通常、fθ(x)が目標にできるだけ近づくように最小化します。これは、図6(a)に示すように、fθによって得られる部分空間において、同じ目標を持つ異なる観測値が一点になることを期待していることを意味します。言い換えれば、我々が期待する解空間は、現在のタスクtiに対してのみ判別可能であり、様々な潜在的タスクT ti以外のタスクに対しては不変であると考えられます。汎用ニューラルネットワークでは、得られた表現がTに属するすべてのタスクに対応できることが望まれます。したがって、図6.b）に示すように、多様体空間上で各タスクの解を同時に求めることができるように緩和する必要があります。しかし、上記の要件から、ti の解を得るために、ワンショット・ベクトルの最大値や、ユークリッド距離の閾値など、些細な数学的手法を用いることはできません。この問題を解決するためには、図6(c)に示すように、誤差項をモデル化して、異なるタスクの解を求める必要があります。

統一されたネットワーク提案された統一ネットワークを学習するために，明示的な知識と暗黙的な知識を併用して誤差項をモデル化し，それを多目的ネットワークの学習プロセスの指針とします．学習に対応する式は以下の通りである。

ここでeps_exとeps_imは、それぞれ観測データxと潜在コードzの明示的な誤差と暗黙的な誤差をモデル化する演算である。 gφは、明示的な知識と暗黙的な知識の情報を組み合わせたり、選択したりする役割を果たすタスク固有の演算である。 fθに明示的な知識を統合する既存の方法がいくつかあるので、（2）を（3）に書き換えることができます。

ここで、*は、fθとgφを結合することができるいくつかの可能な演算子を表します。ここでは、第3節で紹介した加算、乗算、連結の各演算子を使用する。誤差項の導出過程を複数のタスクの処理に拡張すると、以下の式が得られる。

ここで、Z = {z1, z2, ..., zT }は、T個の異なるタスクの暗黙的な潜在コードのセットである。 Φは、Zから暗黙的表現を生成するために使用できるパラメータであり、Ψは、明示的表現と暗黙的表現の異なる組み合わせから最終的な出力パラメータを計算するために使用される。異なるタスクについて、すべてのz∈Zに対する予測値を得るために、以下の式を用いることができる。

すべてのタスクについて、共通の統一表現fθ(x)から始まり、タスク固有の暗黙的表現gΦ(z)を経て、最後にタスク固有の識別器dΨで異なるタスクを完成させる。

4.2. 暗黙知のモデル化

我々が提案した暗黙知は、以下の方法でモデル化することができる。

ベクトル / マトリックス / テンソル。

ベクトルzを暗黙知の先行者として、直接、暗黙知の表現として使用する。このとき、各次元が互いに独立であることを前提としなければならない。

ニューラルネットワーク。

ベクトルzを暗黙知の事前情報として使用し、その後、重み行列Wを使用して線形結合または非線形化を行い、暗黙知の表現となる。このとき、各次元が相互に依存していることが前提となる。また、より複雑なニューラルネットワークを用いて暗黙的な表現を生成することも可能である。また、マルコフ連鎖を用いて、異なるタスク間の暗黙的表現の相関関係をシミュレートすることもできる。

マトリックスファクタライゼーション。

複数のベクトルを暗黙知の事前情報として使用し、これらの暗黙知の事前基底Zと係数cが暗黙知の表現を形成する。さらに、cにスパース拘束をかけて、スパース表現形式に変換することもできる。さらに、Zとcに非負の制約を与えて、非負行列因子分解（NMF）形式に変換することもできる。

4.3. 学習

我々のモデルが最初に事前の暗黙知を持っていない、つまり明示的な表現fθ(x)に影響を与えないと仮定します。結合演算子 ∈｛加算、連結｝の場合、初期の暗黙の事前知識z ∼ N(0, σ)であり、結合演算子 が乗算の場合、z ∼ N(1, σ)である。ここで、σは0に近い非常に小さな値です。 zとφについては、学習過程でバックプロパゲーションアルゴリズムを用いて学習されています。

4.4. 推論

暗黙知は観測値xとは無関係なので、暗黙知モデルgφがいかに複雑であっても、推論フェーズが実行される前に定数テンソルの集合に還元することができる。つまり、暗黙的な情報の形成は、本アルゴリズムの計算量にほとんど影響しません。また、上記演算子が乗算の場合、後続の層が畳み込み層であれば、以下の(9)を用いて積分を行う。加算演算子の場合で、前の層が畳み込み層で活性化関数を持たない場合は、以下に示す(10)を用いて積分する。

結論

本論文では、暗黙知と明示知を統合した統一ネットワークの構築方法を示し、シングルモデルアーキテクチャの下でのマルチタスク学習にも依然として有効であることを証明した。今後は、図12に示すように、マルチモーダル、マルチタスクに学習を拡張していこう。

e4exp / paper_manager_abstract

You Only Learn One Representation: Unified Network for Multiple Tasks #481