YOLOP: You Only Look Once for Panoptic Driving Perception

e4exp commented 3 years ago

https://arxiv.org/abs/2108.11250
2021

自律走行には、パノプティックな運転知覚システムが不可欠です。高精度かつリアルタイムの知覚システムは、走行中に車両が合理的な判断を下すことを支援します。我々は、交通物体の検出、走行可能エリアのセグメンテーション、車線の検出を同時に行うパノプティック・ドライビング・パーセプション・ネットワーク(YOLOP)を発表する。 YOLOPは、特徴抽出のための1つのエンコーダと、特定のタスクを処理するための3つのデコーダで構成されています。このモデルは、難易度の高いBDD100Kデータセットにおいて非常に優れた性能を発揮し、3つのタスクすべてにおいて精度と速度の点で最先端を達成しました。さらに、我々のマルチタスク学習モデルが共同学習に有効であることを、アブレーション研究によって検証した。我々の知る限り、本研究は、組み込みデバイスJetson TX2(23 FPS)上で、これらの3つの視覚的知覚タスクを同時にリアルタイムで処理し、優れた精度を維持することができる初めての研究です。今後の研究を促進するために、ソースコードと学習済みモデルは https://github.com/hustvl/YOLOP で公開される予定です。

https://github.com/hustvl/YOLOP

e4exp commented 3 years ago

I. INTRODUCTION

近年、自律走行に関する広範な研究により、パノプティック・ドライビング・パーセプション・システムの重要性が明らかになりました。パノプティック・ドライビング・パーセプション・システムは、カメラで撮影した画像から視覚情報を抽出し、車両の行動を制御する意思決定システムを支援することができるため、自律走行において重要な役割を果たします。車両の操縦を制限するためには、視覚認識システムがシーンを理解し、障害物の位置、道路が走行可能かどうかの判断、車線の位置などの情報を決定システムに提供する必要があります。物体検出は、通常、車両が障害物を回避したり、交通規則に従ったりするのを助けるために、パノプティック・ドライビング・パーセプション・システムに含まれます。また、走行可能なエリアの分割や車線の検出も、車両の走行ルートを計画する上で重要であるため、必要となります。多くの手法がこれらのタスクを別々に扱っている。例えば、Faster R-CNN [1]やYOLOv4 [2]は物体検出に対応し、UNet [3]やPSPNet [4]はセマンティックセグメンテーションを行うために提案されている。 SCNN [5]やSAD-ENet [6]は車線の検出に用いられている。これらの手法は優れた性能を発揮しますが、これらのタスクを次々と処理すると、一度に処理するよりも時間がかかります。

パノプティック・ドライビング・パーセプション・システムを、自動運転車で一般的に使用される組み込み機器に展開する場合、限られた計算資源とレイテンシーを考慮する必要があります。また、交通状況の把握では、上述の3つのタスクのように、異なるタスクには多くの関連情報があることが多い。また，図1に示すように，車線は走行可能領域の境界であることが多く，走行可能領域は通常，交通対象物を密接に取り囲んでいる．このような状況では、マルチタスクネットワークが適しています。マルチタスクネットワークは、

（1）複数のタスクを1つずつ処理するのではなく、一度に処理することで画像解析プロセスを高速化できる（2）複数のタスク間で情報を共有することができ、マルチタスクネットワークは同じ特徴抽出バックボーンを共有することが多いため、各タスクのパフォーマンスを向上させることができるからです。そのため、自律走行におけるマルチタスク・アプローチを模索することは重要な意味を持ちます。

MultiNet [7]は、1つの共有エンコーダと3つの独立したデコーダを持つエンコーダ-デコーダ構造を用いて、分類、物体検出、セマンティックセグメンテーションを行います。 MultiNetはこれらのタスクで優れた性能を発揮し、KITTIの走行可能領域のセグメンテーションタスクでは最先端の性能を達成しています。

しかし、分類タスクは、車両を制御する上で、車線検出ほど重要ではありません。 DLT-Net [8]は、交通物体検出、走行可能領域分割、車線検出をすべて組み合わせ、相互情報を共有するためにデコーダ間の特徴マップを融合するコンテキストテンソルを提案しています。しかし，性能的には競争力があるものの，リアルタイム性に欠ける．

そこで本研究では、TensorRTを搭載した組込み機器Jetson TX2を用いて、物体検出、走行可能領域分割、車線検出の3つのタスクを同時に処理し、リアルタイム性を実現する効率的なマルチタスクネットワークを構築しました。自律走行におけるこれら3つの重要なタスクを一度に処理することで、パノプティック・ドライビング・パーセプション・システムの推論時間を短縮し、計算コストを合理的な範囲に抑制し、各タスクのパフォーマンスを向上させます。

高精度で高速な処理を実現するために、シンプルで効率的なネットワーク・アーキテクチャを設計しました。エンコーダには軽量のCNN [9]を使用し，画像から特徴を抽出します．次に，これらの特徴マップを3つのデコーダに送り，それぞれのタスクを完了させます．検出デコーダには，現在最も性能の高いシングルステージ検出ネットワーク[2]を採用しているが，その理由は2つある．

(1) シングルステージの検出ネットワークは，2ステージの検出ネットワークよりも高速である． (2) シングルステージ検出器のグリッドベースの予測メカニズムは、他の2つのセマンティックセグメンテーションタスクとの関連性が高い。

一方、インスタンスセグメンテーションは通常、リージョンベースの検出器と組み合わせて行われる[10]。エンコーダーが出力する特徴量マップには，異なるレベルとスケールの意味的特徴が含まれており，我々のセグメンテーションブランチは，これらの特徴量マップを用いて，ピクセル単位の意味的予測を優れた形で完成させることができる．エンド・ツー・エンドの学習戦略に加えて、我々はモデルを段階的に学習するいくつかの交互の最適化パラダイムを試みます。一方では、関連性のないタスクを異なる学習ステップに置くことで、相互制限を防ぐことができます。一方で、最初に学習したタスクが他のタスクを導くこともできます。このようなパラダイムは、面倒ですがうまくいくこともあります。しかし、実験の結果、我々のモデルでは、端から端まで学習されたもので十分な性能を発揮できるため、このようなパラダイムは不要であることがわかりました。その結果，我々のパノプティック・ドライビング・パーセプション・システムは，単一のNVIDIA TITAN XPで41 FPS，Jetson TX2で23 FPSを達成するとともに，BDD100Kデータセットの3つのタスクで最先端の性能を達成しました[11]．

要約すると，我々の主な貢献は以下の通りである．

(1) 自律走行において重要な3つのタスク（物体検出、走行可能領域の分割、車線検出）を共同で処理できる効率的なマルチタスクネットワークを提案し、計算コストの削減、推論時間の短縮、および各タスクの性能向上を実現した。本研究は、BDD100Kデータセットで最先端レベルの性能を維持しながら、組み込み機器でのリアルタイム化を実現した初めての研究です。

(2) マルチタスク方式の有効性を検証するために、アブレーション実験を行います。3つのタスクは、面倒な交互最適化を行うことなく、共同で学習できることが証明された。

e4exp commented 3 years ago

スクリーンショット 2021-08-26 13 22 01

e4exp / paper_manager_abstract

YOLOP: You Only Look Once for Panoptic Driving Perception #624

I. INTRODUCTION