Open yusukekyokawa opened 4 years ago
大規模な画像分類データセット(例:ImageNet [30])で訓練されたディープニューラルネットワークは、通常、物体検出[23, 29, 2, 8]、セグメンテーション[45, 11]、人間のキーポイント検出[11, 39]などのダウンストリームタスクのための強力な代表的な特徴を抽出するためのバックボーンとして採用されています。優れた分類ネットワークは、多くの場合、強力な特徴変換能力を持っており、そのため、ダウンストリームのタスクに利益をもたらす強力な表現を提供します[20, 10, 27]。したがって,畳み込みネットワークの特徴変換能力を向上させることが強く望まれている. 文献では、リッチな表現を生成する効果的な方法として、残差ネットワーク(ResNets)[12]やその多様な変種[40, 43, 34, 7]などの強力な手作業で設計されたネットワークアーキテクチャを使用するか、またはAutoML技術[47, 26]に基づいてネットワークを設計することが挙げられている。最近では、空間的な位置やチャンネル間の相互依存性、あるいはその両方をモデル化するために、注目メカニズム[38, 48, 16, 15]や非ローカルブロック[37, 3]を成熟したネットワークに組み込むことで、このような方法を試みるものもある。上記の方法の背後にある共通の考え方は、豊かな特徴表現を生成するためにネットワークアーキテクチャを調整することに焦点を当てているが、これはあまりにも多くの人間の労力を必要とする。 本稿では、特徴表現を強化するために複雑なネットワークアーキテクチャを設計するのではなく、層ごとに基本的な畳み込み変換を増強することで、畳み込みネットワークが識別的な表現を学習するのを助ける効率的な方法として、自己校正畳み込みを導入する。グループ化された畳み込みと同様に、特定のレイヤーの畳み込みフィルタを複数の部分に分離するが、各部分内のフィルタが不均一に活用される。具体的には、元の空間の入力に対するすべての畳み込みを均一に実行するのではなく、自己校正された畳み込みは、最初にダウンサンプリングを行い、入力を低次元の埋め込みに変換します。1つのフィルタ部分によって変換された低次元の埋め込みは、別の部分内のフィルタの畳み込み変換を校正するために採用されます。このような不均一な畳み込みとフィルタ間通信の恩恵を受けて、各空間位置の受容野を効果的に拡大することができます。 標準的な畳み込みの拡張版として、我々の自己校正畳み込みには 2 つの利点がある。第 1 に,これまでの小領域(例えば,3×3)で動作する畳み込み処理の伝統を打ち破り,各空間位置が長距離領域からの情報的な文脈を適応的にエンコードできるようになる.これにより、自己校正された畳み込みによって生成される特徴表現は、より識別性の高いものとなる。図 1 では、異なるタイプの畳み込み [12, 40] を持つ ResNet によって生成された特徴活性化マップを視覚化しています。このように,自己校正された畳み込みを持つResNetは,より正確かつ統合的に対象物の位置を特定することができる.第二に、提案された自己校正畳み込みは汎用的であり、パラメータや複雑さのオーバーヘッドを導入したり、ハイパーパラメータを変更したりすることなく、標準的な畳み込み層に簡単に適用できる。 提案した自己校正畳み込みの有効性を実証するために,まず大規模な画像分類問題に適用する.残差ネットワーク[12]とその変種[40, 16]をベースラインとし、同等のモデルパラメータと計算量でトップ1の精度が大幅に向上することを示す。画像分類に加えて,物体検出,インスタンスセグメンテーション,キーポイント検出などのビジョンアプリケーションにおいて,提案した自己校正畳み込みの一般化能力を実証するための広範な実験を行った.実験の結果、提案する自己校正畳み込みを3つのタスクすべてに使用することで、ベースラインの結果が大幅に改善されることが示された。
In this section, we briefly review the recent representative work on architecture design and long-range dependency building of convolutional networks.
建築設計. 近年、新規アーキテクチャ設計の分野では目覚ましい進歩が見られます [33, 35, 32, 44]。初期の研究として,VGGNet [33] は,AlexNet [19] に比べてカーネルサイズが小さい(3 × 3)畳み込みフィルタを使用してより深いネットワークを構築し,より少ないパラメータを使用しながらより良い性能を実現している.ResNets [12, 13] は,残差接続の導入とバッチ正規化 [18] を用いることで逐次構造を改善し,非常に深いネットワークを構築することが可能である.ResNeXt [40]とWide ResNet [43]は,3×3の畳み込み層をグループ化したり,その幅を広げたりすることで,ResNetを拡張している.GoogLeNet [35]とInceptions [36, 34]は、特徴変換のために特殊なフィルタ(3×3など)のセットの複数の並列パスを持つ、慎重に設計されたInceptionモジュールを利用している。NASNet [48]は、事前に定義された探索空間を探索することでモデルアーキテクチャを構築することを学習し、転送可能性を可能にしている。DenseNet [17] や DLA [42] は,複雑なボトムアップ・スキップ接続によって特徴を集約する.Dual Path Networks (DPN) [7]は,残差接続と密接続の両方を利用して強力な特徴表現を構築します.SENet [16]は、チャンネル間の相互依存性を明示的にモデル化するために squeezeand-excitation操作を導入しています。
長距離依存性を構築することは、ほとんどのコンピュータビジョンのタスクで役立ちます。成功した例の一つは SENet [16] であり、チャネル次元間の相互依存性を構築するために Squeeze-and-Excitation ブロックを採用しています。GENet [15]、CBAM [38]、GCNet [3]、GALA [25]、AA [1]、NLNet [37]のような後の研究では、空間的注意メカニズムを導入したり、高度な注意ブロックを設計したりすることで、このアイデアをさらに拡張しています。長距離依存性をモデル化するもう一つの方法は、空間プーリングまたは大きなカーネル窓を持つ畳み込み演算子を利用することである。PSPNet [45]のようないくつかの典型的な例は、マルチスケールのコンテキストを捕捉するために、異なるサイズの複数の空間プーリング演算子を採用している。また、長距離コンテキスト集約のために大きな畳み込みカーネルや拡張畳み込みを活用する多くの研究 [28, 14, 41, 5, 22]もある。我々の研究は、空間的な冗長性と計算コストの削減を目的としたOctave畳み込み[6]とは異なるものである。 畳み込みネットワークを改善するために、ネットワークアーキテクチャのチューニングや、手作業で設計したブロックを追加することに焦点を当てた上記のすべてのアプローチとは異なり、我々のアプローチは、畳み込み層の畳み込みフィルタをより効率的に利用し、より表現力の高い特徴表現を生成するために強力な特徴変換を設計することを考慮しています。
PyTorch実装 対象データセットはImageNet OptimizerはSGD weightdecay, momentum はそれぞれ0.0001, 0.9 4つのTesla V100にしてbatch_sizeを256, つまり 64/GPU
一言でいうと
従来のCNNのような複雑なアーキテクチャを利用せず,CNNの基本的な畳み込み特徴変換プロセスを、モデルアーキテクチャをチューニングせずに改善することを検討 新しい自己校正畳み込みを提示する
論文リンク
http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Improving_Convolutional_Networks_With_Self-Calibrated_Convolutions_CVPR_2020_paper.pdf
GitHubリンク
https://github.com/MCG-NKU/SCNet
著者/所属機関
Jiang-Jiang Liu, Qibin Hou, Ming-Ming Cheng, Changhu Wang and Jiashi Feng CS, Nankai University, NUS and 3ByteDance AI Lab
conf/journal
CVPR2020
year
2020
新規性
手法
結果
コメント