Open e4exp opened 3 years ago
物体追跡は,コンピュータビジョンにおける最も基本的かつ困難な課題の一つです。 ここ数年、ディープニューラルネットワークの台頭により、物体追跡は目覚ましい発展を遂げています。 しかし、その一方で、トラッキングモデルはますます重く、高価になってきています。 例えば,最新のSiamRPN++[30]およびOcean[56]トラッカーは,最先端の性能を達成するために,それぞれ7.1Gおよび20.3GのモデルFlops,11.2Mおよび25.9Mのパラメータを使用しており,図1に示すように,初期のSiamFC[5]方式(2.7G Flopsおよび2.3Mのパラメータを使用)よりもはるかに複雑になっています. このような大規模なモデルサイズと高価な計算コストは、カメラ付きドローン、産業用ロボット、運転支援システムなど、モデルサイズと効率性に大きな制約がある実世界のアプリケーションにおけるトラッキングモデルの展開を妨げています。 複雑さと効率性の問題に取り組むには、2つの分かりやすい方法があります。 1つはモデルの圧縮、もう1つはコンパクトなモデルの設計です。 プルーニングや量子化などの既存の圧縮技術は,モデルの複雑さを低減することができるが,情報損失による無視できない性能低下をもたらすことは避けられない[21, 38]。 一方,コンパクトで効率的なモデルを手作業で作成することはエンジニアリングコストが高く,人間の専門知識と経験に大きく依存している[55, 15].
本論文では、新しい解決策として、ニューラル・アーキテクチャ・サーチ(NAS)を用いて軽量モデルの設計を自動化し、検索されたトラッカーがリソースの限られたハードウェア・プラットフォーム上で効率的な方法で実施できるようにする。 これは、オブジェクト・トラッカーが一般的にImageNetの事前トレーニングを必要とするのに対し、NASアルゴリズムはターゲット・トラッキング・タスクのパフォーマンス・フィードバックを監視信号として必要とするため、自明なことではありません。 最近のワンショットNAS [41, 4, 20]に基づいて、我々はLightTrackと呼ばれる物体追跡タスクに特化した新しい探索アルゴリズムを提案する。 LightTrackは、すべての可能なアーキテクチャをバックボーンスーパーネットとヘッドスーパーネットにエンコードする。 バックボーンスーパーネットはImageNet上で事前に学習された後、トラッキングデータを用いて微調整され、ヘッドスーパーネットはトラッキングデータを用いて直接学習されます。 スーパーネットは一度だけ学習され、各アーキテクチャ候補はスーパーネットから直接重みを受け継ぎます。 アーキテクチャの探索は、トラッキング精度とモデルの複雑さを監督指針として、学習されたスーパーネット上で行われます。 一方、モデルの複雑さを軽減するために、深さ方向に分離可能なコンボリューション[11]や反転残差構造[45, 23]などの軽量なビルディングブロックで構成される探索空間を設計する。 このような探索空間により、ワンショットNASアルゴリズムは、追跡性能と計算コストのバランスを取りながら、よりコンパクトなニューラル・アーキテクチャを探索することができる。
総合的な実験により、LightTrackが有効であることが検証されています。 LightTrackは、効率的で軽量なオブジェクトトラッカーを探し出すことができます。 例えば、LightTrackは、VOT19ベンチマークでEAO 0.33を達成した530M Flopsのトラッカーを発見し、SOTA SiamRPN++ [30]を4.6%上回り、モデルの複雑さ(48.9G Flops)を98.9%削減しました。 さらに重要なことは、エッジGPUやDSPなどのリソースが限られたチップセットに導入した場合、今回発見したトラッカーは非常に競争力があり、既存の手法よりもはるかに高速に動作します。 Snapdragon 845 Adreno 630 GPU [3]において、我々のLightTrackはOcean [56]よりも12倍高速に動作し(38.4 v.s. 3.2 fps)、13倍少ないパラメータ(1.97 v.s. 25.9 M)と38倍少ないFlops(530 v.s. 20,300 M)を使用しています。 このような改善により、リソースに制約のあるハードウェア・プラットフォーム上で、ディープ・トラッキング・モデルを容易に展開し、リアルタイムで実行することが可能になります。 本研究は以下の点で貢献しています。
本論文では,ニューラル・アーキテクチャ探索による軽量な物体追跡装置の設計に初めて取り組んだ. 提案した手法、すなわちLightTrackは、物体追跡に特化したワンショットNASを再構成し、効果的な探索空間を導入する。 複数のベンチマークを用いた広範な実験の結果、LightTrackは、より少ないFlopsとパラメータで、最先端の性能を達成することができました。 さらに、LightTrackは、リソースが制限された様々なプラットフォーム上でリアルタイムに実行することができます。 本研究は、物体追跡分野における学術的な手法と工業的なアプリケーションとの間のギャップを縮めることができると期待しています。
物体追跡は、ここ数年で大きな進歩を遂げています。しかし、最先端のトラッカーはますます重く、高価になっており、リソースに制約のあるアプリケーションへの展開が制限されています。 本研究では、ニューラル・アーキテクチャ・サーチ(NAS)を用いて、より軽量で効率的なオブジェクト・トラッカーを設計するLightTrackを発表しました。 包括的な実験により、我々のLightTrackが有効であることが示されました。 LightTrackは、SiamRPN++やOceanのような手作りのSOTAトラッカーと比較して、より少ないモデルフロップとパラメータで、優れた性能を達成するトラッカーを見つけることができます。 さらに、リソースに制約のあるモバイル・チップセットに導入した場合、発見されたトラッカーはより高速に動作します。 例えば、Snapdragon 845 Adreno GPUでは、LightTrackはOceanよりも12倍高速に動作しますが、使用するパラメータは13倍少なく、Flopsは38倍少なくなっています。 このような改善により、物体追跡タスクにおける学術的なモデルと産業界での展開とのギャップを縮めることができるかもしれません。 LightTrackはこちらのhttpsのURLで公開されています。
https://github.com/researchmm/LightTrack