Shinosuke7110 / read-papers

読んだ論文についてまとめよう
0 stars 0 forks source link

6D ROTATION REPRESENTATION FOR UNCONSTRAINED HEAD POSE ESTIMATION #6

Open Shinosuke7110 opened 2 years ago

Shinosuke7110 commented 2 years ago

Authur 筆者

Motivation なぜやろうとしたか

本論文では、制約のないエンドツーエンドの頭部姿勢推定法を提案する。 曖昧な回転ラベルの問題に対処するため、回転行列を導入し、効率的かつロバストな直接回帰のための連続6次元回転行列表現を提案する。 この方法により、満足のいく結果を得るために姿勢予測を狭い角度に制限する従来のアプローチとは逆に、完全な回転外観を学習することができる。さらに、SO(3)多様体の形状に関して、測地線距離に基づく損失を提案し、我々のネットワークにペナルティを与える。 AFLW2000とBIWIを用いた実験により、提案手法は他の最先端手法を最大20%上回る性能を持つことを実証する。

Method 手法

Insight 結果

Contribution 貢献の要約


Keyword 新しいキーワードなど

Unknown 何が今だ不明か

Reflection 考察

Reference 関連研究

はじめに

現在の手法は、一般的にランドマーク・ベースとランドマーク・フリーのアプローチに分けられます。ランドマークベースの手法[4]は、最初のステップで顔のランドマークを検出し、その後のステップで、これらのランドマークと3次元頭部モデルの対応を確立することによって、3次元頭部姿勢を回復します。この方法は非常に正確な結果をもたらしますが、ランドマーク位置の正確な予測に大きく依存します。そのため、オクルージョンや極端な回転によってランドマークの位置がずれると、結果的に正確な頭部姿勢推定ができなくなります。 ランドマークフリーのアプローチは、頭のポーズを直接推定することでこの問題を克服している。これらの方法は、一般的にディープニューラルネットワークを促進し、外観に基づくタスクとして方向予測を定式化する。 HopeNet [5]はオイラー角予測のためにクロスエントロピーと平均二乗誤差損失関数を組み合わせるためにターゲット角度範囲をビニングすることによって多損失のアプローチを提示した。 同様に、QuatNet [6]はクロスエントロピーのパラダイムを適応しているが、分類と回帰を別々のネットワークブランチに分割している。1つのブランチはオイラー角の分類に使用され、2つ目のブランチは四元数表現でポーズを回帰させるために使用されます。 同様に、HPE [7]は分類と回帰を別々に扱い、そして、ポーズ回帰のサブタスクとして出力を平均化します。 WHENet [8]は、単一ブランチ戦略を維持しつつ、EfficientNetのバックボーンとともに、予測可能なヨーオイラー角の範囲を拡張するためにビンの数を増加させます。 一方、FSA-Net [9]は、オイラー角の予測のために、段階的回帰と特徴集約のスキームを持つネットワークを提案している。 TriNet [10]はこの手法を応用しているが、オイラー角の代わりに回転行列の3つの単位ベクトルを推定し、予測を安定させるために直交性損失を追加で組み込んでいる。 また、FDN[11]では、異なる頭部の向きを識別する特徴を明示的に学習する特徴分離法を提案している。 予測値を安定させるために,連続した回転変数を分類のためにビンに分割することが一般的な慣例となっている[5, 6, 7, 8, 11].しかし,角度のセグメントをビンに刈り込むと,結果的に情報の損失につながるという問題がある.さらに、現在の手法のほとんどは、オイラー角または四元数表現を使用してネットワークを学習している。しかし、Zhouら[12]は、4次元以下の回転表現は不連続であり、ニューラルネットワークの学習タスクに使用するには理想的でないことを示した。

貢献

本研究では,回転行列を用いたランドマーク不要の頭部姿勢推定法を提案する.9パラメータからなる回転行列を用いることで、曖昧さの問題を抱えることなく、完全な姿勢回帰が可能となる。さらに、他の手法で用いられる不要な性能安定化手段(例えば、回転変数を分類問題に離散化する)を取り除き、ネットワークを単純化することができる。この単純化により、我々のネットワークは他の回転関連問題に容易に転用することができる。9パラメータ回転行列全体を予測する代わりに、圧縮された6次元形式を効率的に回帰し、後続のタスクで回転行列に変換する。さらに、一般的に用いられる平均二乗誤差損失の代わりに、測地線損失を用いることを提案する。これにより、特殊直交群SO(3)多様体幾何を包含する学習過程において、距離角を使ってネットワークにペナルティを与えることができるようになる。図1に提案手法の概要を示す。以下、各構成要素について詳しく説明する。我々の手法で用いられている6次元表現に触発されて、我々のネットワークを6DRepNetと呼ぶ。我々の学習コード、テストコード、学習済みCNNモデルは、研究実験と実用化開発を促進するために公開されている。

手法

方向予測に取り組む上で重要なことは、適切な回転表現を使用することである。一般的で便利な表現としてオイラー角があります。しかし、この表現はジンバルロックに悩まされるため最適とは言えません。この場合、同じ視覚的頭部姿勢の出現に対して複数の回転パラメータ化が存在することになります。その結果、ニューラルネットワークは正確な姿勢を学習することが難しくなります。一方、四元数表現はジンバルロックに悩まされることはありませんが、その対蹠的な対称性に起因する曖昧さが残ります。特に、頭部ポーズの全範囲を学習する場合、推定性能の低下につながる可能性がある。より好ましい回転表現は、回転行列であり、各回転に対して明確なパラメタリゼーションを持つ連続的な表現である。SO(3)では,行列表現 R3×3 の大きさで,直交性制約 RRT = I を持ちます(ここで RT は転置行列,I は恒等行列).回転行列を直接回帰することも可能ですが、その場合、グラムシュミット法またはSVDを用いて最も近い最適解を見つけることによって、9つのパラメータをすべて見つけ、直交性制約を強制する必要があります。その代わりに、Zhouら[12]のアプローチに従い、回転行列の最後の列ベクトルを単純に削除することで、表現自体の内部でグラム-シュミット・マッピングを実行します。これにより、3×3行列が6次元回転表現に縮小され、直接回帰の誤差が小さくなることが報告されています[12]。 20220712_01

予測された6次元表現行列は、SO(3)にマッピングし直すことができる。 20220712_02

得られた3×3行列に対して直交性制約が満たされるように、クロスプロダクトで表現される。 20220712_03

その結果、我々のネットワークは6つのパラメータを予測するだけでよく、そのパラメータはその後の変換で3×3の回転行列にマッピングされ、同時に直交性制約も満足させる。頭部姿勢に関連するタスクによく使われる損失関数は l2-ノルム である。しかし、2つの行列間の距離の測定にフロベニウスノルムを使用すると、SO(3)多様体幾何学と矛盾してしまいます。その代わりに、2つの3次元回転間の最短経路を測地線距離と幾何学的に解釈する。RpRgt ∈ SO(3) をそれぞれ推定回転行列とグランドトゥルース回転行列とすると、両回転行列間の測地距離は次のように定義される。 20220712_04

以下、この指標をニューラルネットワークの損失関数として用い、予測方位とグランドトゥルース方位の正確な距離情報を計算することにする。

実験

Pytorch を用いて提案ネットワークを実装した。 バックボーンには RepVGG[13] を選択した。RepVGGはResNet[14]やInception[15]のようなマルチブランチモデルとして設計されており、学習用として使用することができます。このモデルは、再パラメータ化スキームにより、VGGのようなアーキテクチャに変換することができます。このモデルは同じ精度を持ちながら、より短い推論時間を実現します。このように、RepVGGはマルチブランチモデルの精度とシングルブランチアーキテクチャの効率性を兼ね備えています。 RepVGGは複数のサイズのアーキテクチャを提供しており、ここではResNet50と同等の働きをするRepVGG-B1g2を使用します。最終層には、6つの出力を持つ単一の完全連結層を選択します。最終層の構成は、1層から3層までの完全連結層、6つの出力ニューロンを持つ1層最終層、1つの出力ニューロンを持つ分離ブランチなど、複数の構成をテストしました。 実験では、6つの出力ニューロンを持つ単一の最終層が最も良い性能を示した。 ネットワークはAdam optimizerを用いて30エポック学習され、初期学習はバックボーンが1e -5、最後の完全連結層が1e -4である。両者の学習率は10エポック毎に半分になる。バッチサイズは64である。

データセット

一般に、我々のネットワークは回転の全範囲を学習することができる。残念ながら、アノテーション技術の種類により、頭部姿勢推定のための最も一般的なデータセットは、主に正面顔のサンプルを含んでいます。 評価には、3つの一般に利用可能なデータセットを使用する。300W-LP [16]、ALFW2000 [17]、BIWI [18]です。 300W-LPは、複数のデータベースから収集した66,225個の顔サンプルで構成され、さらに画像反転により122,450個のサンプルに拡張されています。これは、約4000枚の実画像に基づいている。グランドトゥルースはオイラー角のフォーマットで提供される。学習のために、我々はそれらを行列形式に変換する。 ALFW2000データセットは、ALFWデータセットの最初の2000枚の画像に、グランドトゥルースである3Dの顔とそれに対応する68個のランドマークが注釈されています。このデータセットには、大きなバリエーション、異なる照明、およびオクルージョンの条件を持つサンプルが含まれている。 BIWIデータセットには、20人の参加者によるラボ環境で作成された15,678枚の画像が含まれている。このデータセットでは、頭部は画像の中で小さな面積しか占めていない。そこで、MTCNN[19]顔検出器を用いて画像から頭部を緩やかに切り出す。公正な比較のために、他の手法[5, 10]の前処理戦略に従い、オイラー角が-99°から99°の間にあるサンプルだけを残すようにした。

実験1

最初の実験では、学習用に合成300W-LPデータセット、テスト用に2つの実世界データセットALFW2000とBIWIを使用し、慣例に従った実験を行いました。 標準的な評価指標はオイラー角の平均絶対誤差(MAE)であるため、より良い比較のために、回転行列の予測値をオイラー角に変換しています。 表1は、最初の実験セットアップの結果を示しています。我々は、頭のポーズ推定のための他の最先端のランドマークフリーアプローチによって報告された結果と我々の方法を比較します。その結果,AFLW2000テストデータセットにおいて,本手法は現状を20%近く上回り,3種類の回転角yaw, , and, rollのすべてにおいて最も低い誤差を達成していることが分かりました.また,BIWIデータセットでは,MAEにおいて最新鋭の結果を得ることができた.また,BIWIデータセットにおいて,本手法はMAEにおいて最先端の結果を達成した.単一角度の誤差が大きく異なる他の手法とは対照的に,本手法は全体的に非常にバランスのとれた誤差を報告している.これは、我々のネットワークが一貫性のあるロバストな方法で学習できていることを示している。 より良く解釈するために、どの手法が一般的に全範囲の回転を予測でき、どの手法が特定の角度の範囲内に予測を制限するかを示す追加の列を追加しました。これは、我々のアプローチ以外に、他の2つの方法だけがフルレンジ回帰を対象としていることを示しています。残りの方法は、狭い範囲の頭部姿勢予測に特化した特別なネットワークアーキテクチャを有しています。 我々の手法に最も近いTriNet[10]は、行列表現を用い、完全な行列を直接予測する。この予測は直交性制約を満たすと仮定できないため、予測に近く、同時に直交する列ノルムベクトルを持つ適切な回転行列を見つけることによる過剰な後処理が必要です。 広範囲の予測確率を持つ2番目の手法であるWHENet [8]は、分類問題にさらにクラスを追加することにより、ヨーのみの完全回転を可能にします(ピッチとロールは不可)。このネットワークは、-90°から90°の間の角度しか予測できないように制限された彼らの類似のネットワーク適応WHENet-Vと比較して、性能が低下していることが顕著である。我々は、この精度の低下は、彼らが学習にオイラー表現を使っているため、導入されたラベルの曖昧さによって引き起こされる可能性があると主張する。図2は、AFLW2000データセットによる定性的な結果です。予測されたオイラー角を可視化することで、画像サンプルにおける頭部姿勢の推定方法を示しています。

実験2

2番目の実験では、FSA-Net[9]の慣習に従い、BIWIデータセットを7:3の割合でランダムに分割し、それぞれ学習とテストを行った。表2は、同じテスト戦略に従った他の最先端手法と比較した結果である。この結果から、本手法はMAEだけでなく、ヨー、ピッチ、ロールの予測においても、AFLW2000データセットでの実験と同様に、他のすべての手法を上回っていることがわかります。これは、実験1において観測されたロバスト性、すなわち、3つの角度すべてにおいて安定した精度を得ることは、学習済みデータセットに依存するだけでなく、提案手法そのものに依存することを裏付けています。

実験3

現在の手法の多くは、学習手順における損失の計算にl2-norm'を用いている。我々は、測地線距離が頭のポーズ方向の予測精度を測定するためのより良い距離メトリックであると主張する。これを証明するために、我々は別の実験を行い、前回のテストを繰り返したが、今回はl2距離損失でネットワークを学習させた。表3は測地線距離損失で学習させたモデルと比較した結果である。これによると、測地線損失ペナルティを用いたネットワークは、l2-normで学習させたものよりもわずかに良いパフォーマンスを示したことがわかる。

実験4

最後の実験では、選択したバックボーンが結果に与える影響を分析しました。ResNet50はHopeNetやTriNetでも使用されている有名な標準ネットワークなので、比較用のバックボーンとして使用しました。表4は、RepVGGバックボーンを用いた我々の手法が、すべてのテストシナリオにおいて、2損失に対して約7%良い性能を発揮することを示している。しかし、ResNet50を用いた場合でも、AFLW2000データセットにおいて、本手法は最先端の結果を得ることができる。

結論

本論文では、単一画像から制約のないエンドツーエンドの頭部姿勢推定法を提示した。我々は、回転行列が姿勢学習タスクに適しているという議論に従い、効率的な直接回帰のための連続した6次元回転行列表現を提案する。さらに、ロバストな学習のために、一般的に用いられるMSEの代わりに測地線損失を導入する。また、従来のアプローチとは異なり、本手法は全回転を回帰することができ、角度制限のビンニング原理を利用しない。それにもかかわらず、本手法は複数のデータセットにおいて、他の最先端手法を最大20%上回る性能を示した。追加実験では、バックボーンと損失関数が結果に与える影響を分析する。今後は、完全な回転サンプルが得られるデータセットで学習させることで、本手法のポテンシャルを最大限に引き出すことを目標としている。この目的のために、CMU Panopticデータセット[20]の完全な頭部ポーズアノテーションを回復する方法を提示したWHENet[8]によって、潜在的なデータセットが紹介されている。

Shinosuke7110 commented 2 years ago

https://arxiv.org/abs/2202.12555 https://github.com/thohemp/6DRepNet