e4exp / paper_manager_abstract

0 stars 0 forks source link

Towards Real-time and Light-weight Line Segment Detection #507

Open e4exp opened 3 years ago

e4exp commented 3 years ago

これまでの深層学習ベースの線分検出(LSD)は、線分予測のための膨大なモデルサイズと高い計算コストに悩まされていました。 このため、計算量が制限された環境でのリアルタイム推論には制約がありました。 本論文では、モバイルLSD(M-LSD)と名付けられた、リソースに制約のある環境のためのリアルタイムで軽量な線分検出器を提案します。 従来の手法では、線分予測のために複数のモジュールを必要としていたが、本手法では、バックボーンネットワークを最小化し、非常に効率的なLSDアーキテクチャを設計した。 このような軽量なネットワークで競争力のある性能を維持するために、我々は新しい学習スキームを提示します。 それは、SoL(Segments of Line Segment)補強と幾何学的学習スキームです。 SoL augmentationは、線分を複数のサブパートに分割し、学習プロセス中に補助的な線分データを提供するために使用されます。 さらに、幾何学的学習スキームにより、マッチングロス、ジャンクションとラインのセグメンテーション、長さと次数の回帰から得られる追加の幾何学的手がかりをモデルに取り込むことができる。 WireframeおよびYorkUrbanデータセットを用いて評価したところ、これまで最高のリアルタイムLSD手法であったTP-LSD-Liteと比較して、我々のモデル(M-LSD-tiny)は、GPU上でモデルサイズを2.5%削減し、推論速度を130.5%向上させることで、競争力のある性能を達成しました。 さらに、我々のモデルは、AndroidおよびiPhoneのモバイルデバイス上で、それぞれ56.8 FPSおよび48.6 FPSで動作します。 我々の知る限り、このモデルはモバイル機器で利用可能な初のリアルタイム深層LSD法です。

e4exp commented 3 years ago

1. intro

線分や分岐点は,低レベルの視覚において非常に重要な特徴であり,ポーズ推定[20, 29, 19],動きからの構造抽出[3, 18],3D再構成[5, 6],画像マッチング[32],ワイヤフレームから画像への変換[33],画像の平行化[34]などの高レベルの視覚タスクに基本的な情報を提供する. さらに,このようなビジョンタスクをモバイル機器や組み込み機器などのリソースに制約のあるプラットフォーム上で実行したいという要求が高まっていることから,リアルタイムの線分検出(LSD)は不可欠であるが困難なタスクとなっている. この問題は,限られた計算能力とモデルサイズに起因しており,リアルタイム推論を実現するための最適な精度とリソース効率のトレードオフを見出すことができません. 深層ニューラルネットワークの出現により、深層学習ベースのLSDアーキテクチャ[30, 36, 31, 35, 12]は、線分の様々な幾何学的な手がかりを学習するモデルを採用し、性能の向上が証明されています。 図2に示すように,LSDに深層学習モデルを使用する複数の戦略をまとめました。 トップダウン戦略[30]は,まず引力場マップで線分の領域を検出し,その領域を線分に押し込むことで線分を予測する. 一方,ボトムアップ戦略では,まず接合部を検出し,次にそれらを線分に配置し,最後に余分な分類器[36, 31, 35]やマージアルゴリズム[10, 11]を用いて線分を検証する. 最近、[12]は、線の提案と検証という時間のかかるステップを必要としない、より単純な線の予測プロセスのために、Tri-Point (TP)表現を提案している。

深層学習モデルを用いたこれまでの取り組みは目覚ましい成果を上げているが、リソースに制約のあるプラットフォームでのLSDのリアルタイム推論はまだ限定的である。 リアルタイムLSDを提示する試みはありましたが[12, 17, 31]、それらはサーバークラスのGPUに限定されていました。 これは主に,使用されているモデルが,dilated ResNet50- based FPN [35],stacked hourglass network [11, 17, 12],atrous residual U-net [30]などの重いバックボーンネットワークを利用しており,大容量のメモリと高い計算能力が必要となるためです. また,図2に示すように,ライン予測処理は,ライン提案[30, 35, 36, 31],ライン検証ネットワーク[35, 36, 31],混合畳み込みモジュール[12, 11]など,複数のモジュールで構成されている. モデルのサイズやライン予測のモジュール数が増えると、表1に示すように、LSDの全体的な推論速度が遅くなり、同時に高い計算量が要求されるようになることがある。 このように、計算コストの増加は、リソースに制約のあるプラットフォーム上でのLSDの展開を困難にしている。 本論文では,モバイルLSD(M-LSD)と呼ばれる,リアルタイムで軽量な線分検出器を資源制約のある環境に提案する. ネットワークについては、線分を予測するためのモジュールを1つだけ持つ、非常に効率的なアーキテクチャを設計しています。 ネットワークサイズを最小化し、従来の手法にあった複数モジュールの処理を排除することで、M-LSDは非常に軽量かつ高速になりました。 軽量なネットワークでも競争力のある性能を維持するために、新しい学習スキームを提示します。 SoL増強と幾何学的学習法です。 SoL augmentationは、線分をサブパートに分割し、そのサブパートを用いて学習段階での拡張線分データを提供します。 幾何学的学習スキームでは、マッチングロス、ジャンクションとラインのセグメンテーション、長さと次数の回帰など、幾何学的な情報を追加してモデルを学習します。 その結果、我々のモデルは、学習時に追加の幾何学的情報を取り込み、より正確な線の予測を行うことができるようになりました。 図1に示すように、我々の手法は、極めて小さいモデルサイズで競争力のある性能と高速な推論速度を達成しています。 M-LSDは、これまでの最高のリアルタイム手法であるTP-LSD-Lite [12]よりも、モデルサイズが6.3%しか変わらないにもかかわらず、推論速度が32.5%向上しています。 さらに,M-LSD-tinyは,AndroidおよびiPhoneのモバイルデバイス上で,それぞれ56.8 FPSおよび48.6 FPSでリアルタイムに動作します. 我々の知る限り、これはモバイル機器で利用可能な初のリアルタイムLSD法です。

image

image