MTL-NAS: Task-Agnostic Neural Architecture Search towards General-Purpose Multi-Task Learning

一言でいうと

論文リンク

https://arxiv.org/abs/2003.14058

著者/所属機関

Yuan Gao, Haoping Bai, Zequn Jie, Jiayi Ma, Kui Jia, Wei Liu

投稿日付

2020/2/31

概要

ニューラルアーキテクチャ検索（NAS）を汎用マルチタスク学習（GP-MTL）に組み込むことを提案します。既存のNASメソッドは、通常、さまざまなタスクに応じてさまざまな探索空間を定義します。さまざまなタスクの組み合わせ（つまり、タスクセット）に適応するために、GP-MTLネットワークを単一タスクのバックボーン（オプションでタスクの優先順位をエンコードする）に分解し、それらの間で階層的および層ごとの特徴の共有/融合スキームを使用します。これにより、タスクにとらわれない新しい一般的な探索空間を設計できます。これにより、Cross-Taskエッジ（つまり、特徴融合接続）が固定シングルタスクネットワークバックボーンに挿入されます。さらに、探索されたアーキテクチャと最終的な評価アーキテクチャの間のパフォーマンスのギャップを埋める、新しいシングルショットの勾配ベースの探索アルゴリズムも提案します。これは、探索フェーズ中にアーキテクチャの重みに対する最小のエントロピー正則化によって実現されます。これにより、アーキテクチャの重みがほぼ離散的な値に収束し、単一のモデルが実現されます。その結果、検索されたモデルは、ゼロから（再）学習することなく、直接評価に使用できます。さまざまなタスクセットでさまざまなシングルタスクバックボーンを使用して大規模な実験を行い、階層的および層ごとの特徴を活用して得られる有望なパフォーマンスと、さまざまなi）タスクセットとii）シングルタスクBackboneへの望ましい一般化を示します。私たちの論文のコードはhttpsで利用可能です： //github.com/bhpfelix/MTLNAS。

※バックボーン：ここでは、ネットワークの構造と同じような意味。

はじめに

近年、ディープニューラルネットワークが大成功を収めています。階層的な特徴の抽出と最適化を自動的かつエンドツーエンドで統合します[24、26、30、57]。深層学習アルゴリズムは研究者を機能工学から解放しますが、慎重に設計されたニューラルアーキテクチャが依然として必要です。最近では、NASは、ディープニューラルアーキテクチャの設計を自動化することで注目を集めています[71]。 NASメソッドは、画像分類[5、8、9、25、35、43、59、71]、オブジェクト検出[7、14、66]、セマンティックセグメンテーション[33]など、さまざまなコンピュータービジョンタスクで非常に競争力のあるアーキテクチャを生み出しています。、44]。ディープニューラルネットワークのパフォーマンスを向上させる別のパラダイムは、マルチタスク学習（MTL）です[29、51]。マルチタスク学習は、複数の関連タスクを同時に学習することにより、多くのアプリケーションで成功を収めています。この成功は主に2つの重要な要因に起因します。つまり、異なるタスクが複数の教師信号を生成し、i）異なるタスク間に追加の正則化を課し、ii）ラベルに暗黙のデータ拡張を生成します[13、51]。従来のMTLメソッドは、すべてのタスク間で単一の畳み込み特徴抽出を共有し、タスクごとに個別のヘッドを保持して、タスク固有の予測を生成します。学習されたすべての階層的および層ごとの特徴は同一であり、すべてのタスクで適切に実行できると暗黙的に想定しています。最近の調査では、そのような仮定が常に成り立つわけではないことが示されています[42]。つまり、不適切な特徴の共有により、一部のタスクがネガティブに転送され、パフォーマンスが低下する可能性があります[51]。より良いアーキテクチャを追求するために、NASを汎用MTL（GP-MTL）に組み込むことを検討するのは当然です。 GP-MTLを活用するには、NASアルゴリズムが異なるタスク（またはMTL内のタスクの異なる組み合わせ、つまりタスクセット）に適応する必要があります。ただし、既存のNASは設計上、そうすることを禁止しています。探索空間は通常、タスクごとに異なるためです。基本的に、これらの探索空間の違いは、異なるタスクの事前分布を反映しています（たとえば、Semantic Segmentationの事前分布がAuto-Deeplabでどのようにエンコードされているかを確認します[33]）。ただし、複数のタスクについて学習する場合、特にタスクが緩く関連している場合、複数のタスクの事前分布を探索空間にエンコードすることは非常に困難です。 GP-MTLの特徴共有/融合スキームからタスクを分離することで、この問題に取り組みます。具体的には、i）複数の単一タスクバックボーンネットワーク（オプションでタスクの事前分布をエンコード）、およびii）異なるバックボーン全体での一般的、階層的、層ごとの特徴共有/融合スキームで構成されるGP-MTLパラダイムを定式化します（詳しくは、図1の一番左の画像）。

図1.提案された汎用MTL-NASの問題の定式化。 GP-MTLネットワークを特定のタスク固有の単一タスクバックボーンとそれらの間の一般的な特徴融合スキームに分解します。これにより、左端の図に示すように、タスクの組み合わせに対応する一般的なタスクに依存しない探索空間を定義できます。右上のサブ図は、NDDR-CNN [13]から動機付けられ拡張されたタスク間融合操作を示しています。融合操作の初期化を右下の画像に示します。固定および十分に学習されたシングルタスクネットワークバックボーンの間に新しいエッジを挿入しているので、初期化（つまり、大きなw_tで初期化）時に各層の元の出力に最小限の影響を与えることを望んでいます（カラーで最もよく見える）。

この定式化により、GP MTLの一般的なタスクに依存しない探索空間を設計できます。具体的には、複数の固定単一タスクネットワークブランチから開始し、各中間層をノードとして、関連する特徴融合操作をエッジとして表します。したがって、問題は、タスク間ノードのペア間の最適なエッジを探すことになります。この場合、探索空間はどのタスクセットに対しても統一されます。さらに、探索と評価の間のパフォーマンスの差異を埋める、新しいシングルショットの勾配ベースの探索アルゴリズムも提案します。具体的には、探索フェーズで得られた検証パフォーマンスは、必ずしも評価に一般化できるわけではないことに注意してください。基本的には、探索フェーズで最適化されたアーキテクチャの混合が離散的アーキテクチャに収束できないことがよくあり、最終的なアーキテクチャが派生したときにパフォーマンスが低下するためです[64]。この問題に対処するには、探索フェーズ中にエントロピーの最小化によりアーキテクチャの不確実性を減らし、ゼロから（再）学習を行う必要なく直接評価用の単一モデルを作成します。これにより、一般的なシングルに存在するパフォーマンスの差異が大幅に減少します。ショット勾配ベースのNASアルゴリズム[35、64]。この論文では、GP-MTLに焦点を当てていることに注意してください。提案された方法は、異なるタスクの組み合わせに適応して、異なるタスク間アーキテクチャを生成できます。シングルタスクのバックボーンブランチを修正し、階層的で層ごとの特徴の融合/埋め込みのためにタスク間のエッジを検索します。特定のバックボーンネットワークの事前タスク（Semantic Segmentationの大規模な畳み込みカーネルなど）を利用して、これらのタスクのパフォーマンスをさらに向上させることもできます。しかし、タスク固有のBackboneアーキテクチャ自体を学ぶことは、GP-MTLの範囲を超えています。代わりに、タスクに依存しない探索空間を設計して、特徴の共有/融合アーキテクチャを学習します。また、GP-MTLメソッドに対して、提案手法をさまざまなBackboneアーキテクチャに適用することにより、一貫したパフォーマンスの向上を確認します[13、42]。要約すると、私たちの貢献は探索空間と探索アルゴリズムの両方にあります。

探索空間：固定のシングルタスクネットワークバックボーン内のタスクの優先順位から切り離された、GP-MTLの階層的および層ごとの特徴融合スキームを活用できる新しいタスクに依存しない探索空間を定義します。これはまた、私たちの方法を現在のNASパラダイムとは異なり、新しいタスク間エッジを検索して、固定され、十分に学習されたネットワークバックボーンに挿入しています。

探索アルゴリズム：新しいシングルショット勾配ベースの探索アルゴリズムを提案します。これにより、探索フェーズと評価フェーズの間のパフォーマンスのギャップが緩和されます。これを実現するには、アーキテクチャの重みに最小のエントロピー正則化を課します。

これにより、アーキテクチャの混合が単一のモデル/アーキテクチャに収束できるようになり、アーキテクチャのプルーニングやゼロからの再学習を行うことなく、評価に直接利用できます。

※バックボーン：ここではネットワークの構造という意味。

問題の定式化

この章では、問題の定式化を紹介します。最初に、3.1節でタスク固有のバックボーンネットワークと一般的なタスク間特徴融合を解きほぐしてGP-MTL問題を分析する方法を示します。 3.2節では、タスクに依存しない探索空間を正式に提示します。これは、さまざまなタスクの組み合わせに対して統合されています。最後に、特徴融合操作の選択について3.3節で詳しく説明します。

タスク固有のバックボーンネットワークと一般的なタスク間特徴融合

NASをGP-MTLに統合する際の主な困難は、間違いなく様々なタスク用に設計された探索空間の違いです。これは、定義上、探索空間が関連するタスクの帰納的バイアスを反映する必要があるためです。 GP-MTLの場合、タスクの組み合わせ（タスクセット）が指数関数的に増えるため、状況はさらに厳しくなります。私たちの戦略は、マルチタスクアーキテクチャを特徴融合接続とタスク固有のサブネットワークを含む（一般的な）共有構造に分解し、NASとの共有構造を最適化することです。 GPMTLでの最近の研究[13、42]は、さまざまなタスクの組み合わせに依存しない一般的なタスクにとらわれない検索空間を備えた特徴融合スキームの設計に焦点を当てながら、タスク固有の部分として単一タスクバックボーンを定式化するように私たちを動機づけました。図1の左端の図で、固定単一タスクバックボーンネットワークと学習可能なタスク間融合エッジを示します。

探索空間

上記の議論に基づいて、GP-MTLのタスクに依存しない探索空間について説明します。 2つのタスクAとBが同じ入力を共有する[42]で説明されているのと同じGP-MTLシナリオを検討します。私たちの目標は、2つの十分に学習されたシングルタスクネットワーク上で、タスク間の特徴融合エッジを学習することにより、マルチタスクネットワークを構築することです。各固定シングルタスクネットワークのすべての中間層に有向エッジを追加することにより、直接非循環グラフ（DAG）を検索することを目指しています（図1の左端のサブ図を参照してください）。すべての有向エッジ（つまり、計算）は、ソース特徴からターゲット特徴を指しています。 GP-MTLフレームワークには2種類のソース機能があります。タスクAの学習を考慮して、同じタスクAのソース特徴を「タスク同一ソース特徴」と定義します。他のタスクからのソース特徴は「タスク相反ソース特徴」であり、反対のタスクからの補足特徴を提供します。タスクと同一のソースエッジを修正し、(計算) 可能な相反ソースエッジの完全なセットを検索します。

正式には、j番目のターゲット層O_jで最適な融合特徴を計算し、タスク同一ソース特徴F_j ^ TIと候補となるタスク相反ソース特徴S ^ TOの完全なセットを利用します。 S ^ TOの構築により、探索空間の範囲が決まります。結果のマルチタスクアーキテクチャでサイクル (循環グラフ？) が作成されるのを回避するために、候補となるタスク相反ソース特徴のインデックスをj以下に制限します。このような限られたタスク相反ソース特徴の候補セットをS_j ^ TO = [F_0 ^ TO、...、F_j ^ TO]と表します。したがって、タスク同一ソース特徴F_j ^ TIに関連付けられた探索空間は、タプル（S_j ^ TO、C）によって特徴付けることができます。ここで、CはF_j ^ TIとS_j ^ TOの融合演算です。最後に、最適な融合特徴O_jは次のとおりです。

ここで、C = {G、H}で、GはReLU、Hは特徴変換です。 Rは、連結を可能にする空間サイズ変更操作（たとえば、バイリニア補間法）です。各z_ijは、i番目のタスク相反ソースノードからj番目のターゲットノードへのエッジがあるかどうかを示す(0, 1)のインジケーターであり、NASアルゴリズムによって最適化されます。それぞれn層の2つのタスクの場合、この一般的な探索空間は、特別なケースとして最先端のNDDR-CNN [13]とCross-Stitch Network[42]を含む2 ^ {n（n + 1）}の候補融合アーキテクチャを生成できます。

タスク間特徴融合操作

NDDR-CNN [13]に従って、特徴変換H = {1x1 Conv(・)}と非線形アクティベーションG = {ReLU (BN(・))}を設計します。式（1）の融合演算は、NDDR-CNNの融合演算を一般化したものであり、任意の数の入力特徴を取ることができるため、異種の非対称アーキテクチャへの収束が可能になることに注意してください。式（1）の融合操作は次の式（2）になります。これは、図1の右上の図にも示されています。

また、Hの初期化（つまり、1×1の畳み込み）が重要であることに注意してください。これは、固定され、よく学習された単一タスクのバックボーンに新しいエッジを挿入するためです。したがって、各層での元のシングルタスク出力の重大な変更を回避する必要があります。正式な初期化をEq（3）に示します。 Eq（3）では、Ⅱは1×1の畳み込みでブロック対角要素の初期化のみを行えるようにする単位行列であり、w_TIとw_TOは、タスク同一ソースとタスク相対ソースのそれぞれの特徴のために初期化された重みです。経験的にw_TI + jw_TO = 1に設定し、[13、42]と同様に大きなw_TIを初期化します。初期化は、図1の右下のサブ図に示されています。

探索アルゴリズム

この章では、単一ネットワークの勾配ベースの探索アルゴリズムを紹介します。これは、メタネットワーク（つまり、ネットワークには、探索空間によって定義されたすべての正当な接続が含まれる）を介して、モデルの重みとアーキテクチャの重みを勾配降下によって最適化します。私たちの方法は、探索アーキテクチャと評価アーキテクチャの間のパフォーマンスの差異を緩和することができます。パフォーマンスの差異は、以前のシングルショット勾配ベースの探索アルゴリズムにおける探索された混合アーキテクチャと派生した単一評価アーキテクチャの間の不整合によって引き起こされました。基本的に、探索アーキテクチャと評価アーキテクチャの望ましくない不整合は、シングルショット勾配ベースの探索アルゴリズムのcontinuous relaxationと離散化の手順によって導入されます。これをよりよく理解するために、まず4.1節でcontinuous relaxationと離散化について説明します。これに基づいて、4.2節では、決定論的continuous relaxationと決定論的離散化の間の不整合によって引き起こされる客観的バイアスを分析します。客観的バイアスを解決するために確率論的SNAS [64]が提案されたことに注意してください。ただし、サンプリングの分散が大きくなり、評価パフォーマンスが不安定になる可能性があります。最後に、両方の問題を軽減するための最小エントロピー正則化を提案し、4.3節で最適化手順を示します。

continuous relaxationと離散化

典型的なシングルショット勾配ベースのメソッドは、通常2つのステージを含みます。　i）continuous relaxation 　ii）離散化。 NAS手法の本来の目的は離散的で微分不可能であるため、continuous relaxationにより勾配を計算し、逆伝播してアーキテクチャを検索できます。多くの場合、探索フェーズは混合モデル（0と1の間の多くのアーキテクチャの重みを持つ）に収束するため、離散化による評価のために単一の子ネットワークを導出する必要があります。ネットワークZの接続性をランダム変数Z_ijのセットとして表します。 Z_ijは、アーキテクチャの重みα_ijによってパラメーター化された離散分布からサンプリングされます。つまり、Z = {Z_ij〜DisDist（α_ij）| ∀（i、j）in 探索空間}、ここで、i、jは、それぞれソースノード（つまり、入力位置）とターゲットノード（つまり、関連する操作を実行するための出力位置）を指します。ここで、離散サンプリング分布は、探索する候補操作が複数あるか1つだけであるかに応じて、CategoricalまたはBernoulliにすることができます。探索空間にはNDDR特徴融合操作しか存在しないため（3.3節および式（2）を参照）、ベルヌーイ分布を使用して問題を提示しますが、提案された探索アルゴリズムは一般的であり、複数のcandidate操作で使用することもできます。

すべての融合接続の多変量サンプリング分布をp_α(・)と表します。ここで、α= {α_ij | ∀(i、j) in 探索空間}。アーキテクチャ探索の目的は[46、64]です：

ここで、θはCNN重みのセットであり、L_θ（Z）はサンプリングされた（離散）アーキテクチャZの損失関数です。勾配ベースの方法でαを最適化するための1つの解決策は、離散サンプリング手順Z〜p_α（Z）が連続になるように緩和することです。

決定論的relaxation DARTSなどの確定的アプローチは、アーキテクチャの混合を直接維持および最適化します。ベルヌーイ確率変数Z_ij〜Ber（α_ij）の場合、離散サンプルの代わりに分布平均を直接使用します。つまり、Z_ij =α_ijです。したがって、式（3）の緩和された目的と式（1）の融合操作は次のようになります。

確率的relaxation SNAS [64]は、離散分布[39]の再パラメーター化トリックを使用して、探索中にアーキテクチャをサンプリングしながら、勾配がサンプリング手順を逆伝播することを許可します。パラメーター化された多変量ベルヌーイは次のとおりです。

ここで、XはZのcontinuous relaxationです。つまり、Xの各エントリは[0, 1]の連続値を取り、L = (L1, L2, ..., Ln) でLi〜Logistic (0, 1)を使用します。温度τが0に近づくと、Xの各要素は離散二項確率変数にスムーズに近づきます。その結果、式（3）の緩和された目的と式（1）の融合操作は次のようになります。

ここで、x_ijは、ソースノードiからターゲットノードjへのサンプリングされた接続です。つまり、X = {x_ij | search（i、j）in 探索空間}。両方の緩和された目的に対する探索の最適化は、評価のために単一の子モデルを導出するために離散化を必要とする、α_ij ∈ [0、1]の混合モデルに収束します。

決定論的離散化 これは、DARTSで使用される離散化方法であり、接続を最も高いアーキテクチャの重みで維持するだけです。バイナリの場合：

ここで、Ind（・）はインジケーター関数です。したがって、最終的な離散化された子ネットワークは次のとおりです。

確率的離散化 SNASの離散化は、検索最適化方程式（7）の間に既に行われています。検索が収束した後、SNASは収束したαとτ= 0の式（6）に従って各x_ijの子アーキテクチャーをサンプリングし、結果として式（8）と同じ形式になります。

客観的バイアスとサンプリング分散

決定論的方法の客観的バイアス。式（5）と（10）の不一致により、リラックスした親と離散化された子の間に客観的なバイアスが生じます。

ここで、L_θ(α)は探索最適化の目的であり、L_θ(Ind(α))は、実際の評価アーキテクチャInd(α)で最小化することを目指す真の目的です。

備考1 L_θの複雑でアーキテクチャに依存する性質により、L_θ（α）=L_θ（Ind（α））であるすべてのケースを推測することは困難です。代わりに、明確に定義されたL_θ、つまりx = y =⇒L_θ（x）=L_θ（y）とInd（α）の近くのローカルリプシッツ連続性を使用すると、単純にαを0または1に近づけることができるため、αを達成できます。 = Ind（α）、最終的にはL_θ（α）=L_θ（Ind（α））。 αに最小エントロピー正則化を適用することでこれを実現します。

実験

この章では、以下の事項に対して調査します：　i）パフォーマンス。提案されたMTL-NASが最新の汎用マルチタスクネットワークに対してどのように実行されるか　ii）汎用性。提案されたMTL-NASは、様々なデータセット、ネットワークバックボーン、様々なタスクセットに一般化することができるか (重要)

パフォーマンスを検証するために、最新のNDDR-CNN [13]およびCross-Stitch Network[42]に対して提案された方法を評価します。さらに、より良い評価のためにさまざまな追加のベースラインも提供します。

シングルタスクベースライン：シングルタスクバックボーンを使用します。マルチタスクベースライン：最も直感的なマルチタスクネットワークであり、すべての層を共有し、最後の層で分割します。 MTL-NAS（SuperNet）：NASプルーニング前に提案された方法のSuperNetであり、探索空間で接続可能である限り、さまざまなタスクからのすべての中間層が接続されます。これは、最先端のNDDR-CNNの汎用バージョンと見なすこともできます。結果は付録に残します（つまり、表A1）。 NDDR-CNN（SuperNet）：これは、MTL-NAS（SuperNet）に類似したNDDR-CNNを直接拡張したものです。 MTL-NAS（SuperNet）との違いは、同じCNNレベルの層間の相互接続のみを許可することです。結果は付録に残します（つまり、表A1）。

また、手法の一般化可能性を実証するための広範な構成もあります。

データセット：NYU v2 [56]およびTaskonomy [69]。ネットワークバックボーン：VGG-16 [57]およびResNet-50 [24]。タスクセット：Semantic SegmentationとSurface Normal Estimation (表面法線推定)を含むピクセルラベリングタスク、およびObject ClassificationとScene Classificationを含む画像レベルのタスク。以下では、最初に実装の詳細を示し、次にさまざまなタスクセットに基づいて結果を示します。

実装の詳細

VGG-16バックボーン[57]では、すべての畳み込み層の特徴を考慮します。 ResNet-50 [24]では、各ボトルネックブロックによって生成される特徴を考慮します。また、ハードウェアの制限により、探索空間を制限します。つまり、私たちは必要とします探索可能なタスク相反ソース特徴（ターゲットとは逆のタスクからのソース特徴）が、固定されたタスク同一ソース特徴（ターゲットと同じタスクからのソース特徴）に関して次のルールを満たすことを要求します： i）同じステージ内であること ii）同じまたは自分より入力層に近い畳み込み層からであること iii）3層離れていないことこれにより、VGG-16では2^24アーキテクチャ、ResNet-50では2^37アーキテクチャの探索空間が生成されます。 NYU v2データセット[56]で、VGG-16バックボーンの20000回の学習IterationとResNet-50バックボーンの30000回のIterationを実行します。 Taskonomyデータセット[69]（ImageNetの3倍）では、ネットワークを90000ステップで学習します。モデルの重みθは、重み減衰0.00025、学習率 (VGG-16：0.001、ResNet-50：0.00025)、モーメンタム0.9のSGDを経由して学習します。 0.9の累乗のPoly学習率減衰を使用します。(下はPoly学習率減衰のグラフ)

Adam[28]を介してアーキテクチャの重みαを最適化します。初期学習率は0.003、重みの減衰は0.001です。エントロピー最小化のためにγ= 10を設定します。 MTL-NASはデータセットとアーキテクチャの両方に関してプロキシレスです。つまり、ターゲット（大）データセットで最終的なアーキテクチャを直接検索します。 NYUv2実験と非常に大規模なTaskonomy実験では、単一のNvidia Titan RTX GPUでVGG 16バックボーンを使用して、探索時間はそれぞれ12〜13および27〜28 GPU時間です。検索されたアーキテクチャとモデルの重みは、ゼロから再学習することなく、直接評価に使用できます。

※プロキシレスの詳しい意味はこれを参考：https://qiita.com/kuz44ma69/items/2184dd6a1ad5bb0fa2ce

Semantic SegmentationとSurface Normal Estimation

Semantic SegmentationとSurface Normal Estimationには、NYU v2データセット[56]を使用します。 40クラスのSemanticラベリングのグラウンドトゥルースは[20]からのものであり、サーフェス法線のグラウンドトゥルースは深度マップから事前計算されます[10]。ピクセルごとの損失は、両方のタスクに使用されます。 Semantic Segmentationでは、softmaxクロスエントロピー損失を使用し、ピクセル精度（PAcc）、ユニオンの平均交差（mIoU）を評価指標として計算します。 Surface Normal Estimationでは、コサイン損失（角度差を示す）を使用してネットワークを学習し、すべてのピクセルの平均および中央角距離、ならびにグラウンドトゥルースに対して11°、22.5°、30°の角度内にあるピクセルの%を使用して評価します。

このタスクは、VGG-16とResNet-50の両方のネットワークバックボーンで実行します。表1と表2にそれぞれ示します。

表1. VGG-16ネットワークを使用したNYU v2データセットのSemantic SegmentationとSurface Normal Estimation。 C.-S.はCross-Stitch Networkを表します。 ↑/↓は高い/低いほど良いことを示します。

表2. ResNet-50ネットワークを使用したNYU v2データセットのSemantic SegmentationとSurface Normal Estimation。

結果は、我々の方法が最先端の方法よりも優れていることを示しており、提案された方法が異なるネットワークバックボーンにおいてSemantic SegmentationとSurface Normal Estimationに有効であることを示しています。

※グラウンドトゥルース：「正解」

Object ClassificationとScene Classification

非常に大規模なTaskonomyデータセット[69]（ImageNetの3倍）でObject ClassificationとScene Classificationタスクを評価します。 40の建物から収集されたデータで小さな分割を使用します。オブジェクトとシーンの両方の分類では、モデルの予測と事前訓練されたネットワークから抽出されたソフトクラス確率との L2距離を損失として使用します。両方のタスクのTop-1とTop-5の認識率を報告します。結果を表3に示します。表3は、別のタスクセットでのメソッドの有望なパフォーマンスを示しています。

表3. VGG-16ネットワークを使用したTaskonomyデータセットのObject ClassificationとScene Classification。 ↑/↓は高い/低いほど良いことを示します。

※ソフトクラス確率：「ハードラベル」はNNが予測したクラスを表すベクトルそのものなのに対し、「ソフトラベル」はそれぞれのクラスに属すと予測した確率のベクトルを表す。例：ハードクラス = [0, 0, 1, 0]、ソフトクラス = [0.1, 0.3, 0.5, 0.1]

アブレーション分析

この章では、提案されたMTL-NASのビルディングブロックのさまざまな選択をアブレーション分析によって調査します。具体的には、次の質問に特に関心があります。 i）提案された探索アルゴリズムはベースライン手法DARTS [35]およびSNAS [64]に関してどのように実行しますか？ ii）固定され、よく学習されたバックボーンの中の新規のタスク間層をどのように初期化しますか？ iii）新しいタスク間層の学習率を設定するにはどうすればよいですか？これらの質問に以下で答えます。学習率分析を付録（表A2）に記載しました。これは、新しいアーキテクチャの学習が学習率に影響されないことを示しています。また、学習したアーキテクチャの図を付録（図A2）に含め、学習したアーキテクチャが異質で非対称であることを示しています。 NYU v2データセットのSemantic SegmentationとSurface Normal Estimationのために、VGG-16ネットワークを使用してすべてのアブレーション分析を実行します[56]。

探索アルゴリズム

この章では、探索アルゴリズム、具体的にはcontinuous relaxation、離散化、そして最も重要なエントロピー最小化について詳しく調査します。決定論的continuous relaxationと決定論的離散化（DATRSなしの再学習なし）に関連するエントロピー最小化と、確率的continuous relaxationと確率的離散化（SNASに類似）を検証します。比較のためにランダム探索ベースラインも提供します。実験結果を表4に示します。

表4. continuous relaxation、離散化、およびエントロピー最小化の影響。 Dは決定論的方法（つまり、再学習なしのDARTS）を示し、Sは確率的方法（つまり、SNAS）を意味し、Eは最小エントロピー正則化を表します。確率論的手法ではサンプリングの分散が大きすぎるため、結果は報告しません（図A1の収束したアーキテクチャの重みの対応するヒストグラムも参照してください）。 ↑/↓は高い/低いほど良いことを示します。

DARTS（再学習なし、表ではDと表記）とSNAS（表ではSと表記）の両方が、最小のエントロピー正則化なしで問題に失敗しています。サンプリングのばらつきが大きいため、SNASのパフォーマンスは報告していません（図A1も参照）。また、10回の実行で最小のエントロピー正則化を使用して確率的手法を実行し、無視できるほどのパフォーマンスの変動を確認します（図A1も参照）。さらに、最小エントロピー制約を課した後、決定論的および確率論的手法が同様のパフォーマンスを生成することを目撃するのは興味深いことです。また、付録（表A3）のcontinuous relaxationと離散化のさまざまな組み合わせ、つまり、確定的continuous relaxationと確率的離散化、および確率的continuous relaxationと確定的離散化も実行します。これらの構成でも同様の結果が得られ（DARTSとMinEntropyおよびSNASとMinEntropyに類似）、これは、人気のあるDARTSとSNASを統合する方法の可能性を示唆しています。

※continuous relaxation：カテゴリカル分布を連続になるように緩和する手法

新規層の重みの初期化

新規のタスク間特徴融合層の初期化された重みを調査することに関心があります。新しいアーキテクチャを固定され、十分に学習された単一タスクのバックボーンに直感的に挿入しているため、各層で元の単一タスクの出力の変更を最小限に抑える必要があります。アブレーション分析はw_tのさまざまな初期化で実行されます。これは、式（3）で定義され、図1の右下の図に示されています。表5に示す結果は、直感に沿ったものです。

表5. 融合操作における1x1畳み込みの様々な初期化の影響。 wは、図1の右下の図でも、式（3）で定義されています。 ↑/↓は高い/低いほど良いことを示します。

w_tを0.9または1.0などの大きな値で初期化すると、最高のパフォーマンスが得られます。

<~~~~~省略~~~~~~>

図3.提案された探索アルゴリズムの全体的な手順。探索されたエッジ（赤い実線）の線幅は、収束したアーキテクチャの重みを示します。私たちの方法は、探索フェーズ中にアーキテクチャの重みに最小限のエントロピー正則化を組み込んでいるため、探索の最適化が（b）と（c）に密接に収束し、学習フェーズが回避され、少ない学習時間でより良いパフォーマンスが得られます。逆に、アーキテクチャの重みのエントロピー最小化がない場合(DARTSなど)、（b）と（c）は非常に異なる可能性があり、（c）のモデルの重みを最初から再学習する必要があります（カラーで最もよく表示されます）。

おわりに

このペーパーでは、汎用マルチタスク学習（GP-MTL）にNASを採用しました。まず、GP-MTLをタスク固有のバックボーンとタスク間特徴融合接続に分解しました。次に、タスクにとらわれない探索空間内で、タスク間の特徴融合戦略を探すことに焦点を当てました。また、探索と評価の間のパフォーマンスのギャップを埋めることができる新しい探索アルゴリズムを提案しました。探索アルゴリズムは、DARTSやSNASなどの一般的なシングルショット勾配ベースの方法も一般化しています。提案された各コンポーネントの効果を検証するために、詳細なアブレーション分析を実施しました。広範な実験により、提案された方法の有望なパフォーマンスと望ましい一般化可能性（さまざまなデータセット、タスクセット、および単一タスクバックボーンに対して）が示されます。

nekonookangae / SummarizePapers