Head pose estimation: A survey of the last ten years

Authur 筆者

Motivation なぜやろうとしたか

Method 手法

Insight 結果

Contribution 貢献の要約

Keyword 新しいキーワードなど

Unknown 何が今だ不明か

Reflection 考察

Reference 関連研究

==========

概要

過去10年の頭部姿勢推定サーベイ制約条件と非制約条件に着目した。決定的な貢献について、から最近のアプローチまで、長所、短所の比較。また将来的な方向性も。

はじめ

頭部姿勢推定は、yaw, roll, pitch の3つの方位角で示される。各パラメータは画像で。応用例いろいろ、

会議モニタリング

視覚的注意を頭部方向と紐づけ、注目される人物を特定する。非言語的ジェスチャーを理解するなど、会話や対人関係と組み合わせて意図の理解に役だつ。

安全運転

視覚範囲を把握することで、死角の歩行者などを検知する補助をする。

監視

視点の監視によって注意の向きを追跡する。

だが、頭部の外観のばらつきや、環境要因によりタスクは困難である。極端な話、HeadPoseEstimation(HPE)は有限の方向集合から頭部姿勢画像を識別するすべての手法に適用されうる。(例、正面と右/左のビューなど)HPEは最大3自由度(DOF)にわたる連続的角度測定値を返す。単一のDOFでも、完全な3次元方向を定義もできる。視線と頭部方向は強く結びついていることが実証されている。Fig.2より、目が同じでも頭の向きが違えば視線方向は異なると脳が認識する。また頭部姿勢と他の顔パーツとの関係も確認され、年齢推定などの他の視覚タスクにも応用可能である。このサーベイ論文では過去10年の成果について調査している。

貢献と構成

一般的なHPEデータベースのリスト。リストの品質について。
屋内、制約なし環境での手法一覧、および性能比較
HPE評価のための真正データ収集のためのセンサーについて
データベースを用いたすべての実験が報告され、評価と将来的な方向性について示す。

sec2. データベースについて sec3. 著名な手法のレビュー sec4. 真正データを取得し作成するために使用される技術について調査、さらにHPEシステムの性能評価のための指標について。 sec5. 将来の方向性

データベース

ここ数年でデータセットの環境条件の複雑さが増している。表1に示す。QOIはデータセット画像の品質、QGTは真偽判定アノテーションの品質を表す。ほとんどのデータセットで、固定座標系に対する剛体の向きを定義する、オイラー角により回転情報を示す。よって3回転で目標に到達可能。また、xyz軸の回転を表す場合もある。それ以外にも、回転行列、単位四元数、ロドリゲスの公式など、様々な形式がある。これらの形式は自由度が3でもそれより多くのパラメータを持つ。回転行列の性質諸々、これは列ベクトルが3次元正規規定を形成する方法である。連続回転を組み合わせるのが簡単なため、便利な回転表現のうちの一つになっている。バーサーとして知られる単位四元数は3次元空間の向きや回転を表現するのに便利な数学的表記法。合成が容易。ジンバルロック回避が可能。(1自由度の損失)回転行列に比べ、コンパクトで、安定、効率的。ロドリゲスの公式は単位四元数を3球から3次元純ベクトル超平面に写像し、軸と回転角から、ベクトルの回転を計算する簡単なアルゴリズムを表す。その他の回転のパラメタ化の詳細は[50]で

VGGFace2

2018年のデータセット。331万枚のデータ。9131人が参加。google画像検索からダウンロードされた画像により構成。すべての画像に顔がバウンティングボックスで切り取られていて、yaw, roll, pitch のアノテーションが施されている。

SASE

kinect 2で収集した3Dデータベース。男32人、女18人のRGB画像と奥行画像からなる。総数3万、yaw, roll pitch 全てあり。表情がすべて異なるため、感情認識も可能か。

SynHead

10の頭部モデル、70のモーショントラック、510960フレームの動画像。すべてにオイラー角、誤差補正のために信頼性の高いground-truth(?)生成可能。現実的な頭部の動きの再現のために、BIWIデータから24個、ETHデータから26個の頭部モーショントラックを収集。さらにKinectとSoftKineticセンサにより13人の被験者から20個の深度映像シーケンスを記録。データ補強のために、モーショントラックごとにランダム選択の背景画像で10個の頭部モデルをレンダリングした。

CCNU

教室で収集された低解像度データ。58人の参加者、75のポーズ、4350枚の画像。環境や表情が変わっている。ground-truthデータ取得のためにSMIのアイトラッキンググラスを使用。水平は-90~90, 垂直は-45~90の範囲。

Syntetic

74000枚のデータベース。2000フレーム、37シーケンス、roll±50, yaw±75, pitch±60, 表情の要素が異なっているので困難。

Dali3DHP

Tapis roulantにつけたカメラから収集した極端なデータ。33人から2つの違うセッションで収集された。セッション1: 正面から左右上下へ頭部回転、セッション2: 歩行器のハンドルを持ちながら、壁のパターンに従って頭部移動。頭部のShimmer sensor 2 により真正データ収集。データには6万以上の深度画像とカラー画像。また、回転角は取得時に定義されている。

CAS-PEAL

1040人、99594枚の画像。yaw±45, 15刻みで7種、pitch-30, 0, 30の3種、計21ポーズあり。

Biwi Kinect

Kinect撮影、20人、15000フレーム。pitch±60、yaw±75, roll±20, ground truthは頭部の3D位置とその回転で表す。

McGill

60人の60本のビデオ。環境が屋内と屋外とで別れる。yaw±90.

ICT-3DHP

kinect撮影による、RGBと深度データ。頭部磁気センサによるground truth. シーケンス数10。フレーム数10。 yaw, pitch, roll の全情報が評価されている。

AFW

AFWLのサブセット。250枚の画像。468の顔。yaw±90が15刻み、真値は手動でエラーの可能性

AFLW

インターネットで収集したデータセット。正面と横顔が9つの照明条件。その他さまざまな環境要因。 5749人、13000枚、yaw±120、roll, pitch±90。手動でのアノテーション。

Multi-Pie

75k枚、15代のカメラ撮影。

BJUT-3D

500人、46500枚、ポーズ数93、10刻みで±40のpitch, yawも10刻みで±60

ETH

20人、10000枚以上、スキャナによる28fpsのレンジ画像取り込み、yaw±90、pitch±45、Pointingと同様にマーカの覗き込みにより、鼻の位置と前方向を含むground truth.

FacePix

30人、5430枚、2刻みのyaw±90。

Pointing'04

2004年の古いデータベース。15人、yaw, pitchがマーカーを見る指示で注釈されている。水平、垂直に±90で変化し、水平、垂直で15、30刻みで変化。

BU

200枚、5人、セッション1:一様な照明、セッション2:照明が変化する複雑な画像、磁気トラッカーにより3つの回転角度はすべて記録される。オクルージョンがほとんどなく、ほとんどの手法で非常に良好な結果を示した。

手法

様々な手法のシステムを実装に照らして分類する。図に即した分類もあるよ。

2D外観に基づく手法

3D顔姿勢と2D顔画像との関係を前提とした手法。多数の画像と統計的学習を利用した分類期の学習。学習画像を高次元ベクトルとし、統計的分布から視覚的特徴を抽出する。学習されたモデルから、ポーズの識別を行う。外観による方法はいくつか好成績を出している。新たに自由度を二つ推定する手法もある。問題をマルチタスク分類クラスとして扱い、画像にガウス微分を施すことで特徴抽出しパターン分類アルゴリズム(SVM)にてポーズを識別する。別手法では、9次元の局所記述子が各画像ピクセルに対して計算され頭部姿勢推定を行う。また、勾配の大きさ、方法も抽出される。利点として、比較的単純であり、どの解像度にも適している、ネガティブなデータが必要ない、テンプレモデルの拡張がいつでも簡単に調整可能である。短所としては、頭部検出に信頼性が必要。照明や表情が極端に異なると、タスクが複雑になり学習がより必要になる。オクルージョンにも弱い。また、ペアワイズ類似性という誤った仮定をしていること。これは同じ被写体で異なるポーズよりも、異なる被写体で同じポーズの方が間違える可能性が高いこと。改善は上手くいっていない。

幾何学的手法

目、鼻、眉毛、口などの部位のキーポイントを特定する必要がある。そこから1つの特徴ベクトルを抽出する。機械学習による予測により、キーポイントの相対的な位置からポーズが推定される。この手法は異なるポーズ同士に存在する手掛かりに依存し、脳が頭部方向を特定する流れと似ている。多くの手法で目、眼球内距離などのキーポイントが利用されている。あと鼻先。提示する手法では、必要な顔特徴量が少なく、効率が良い。目、鼻孔、眉、頬、顎で顔構造記述をしている。また、より多くの特徴点を採用する手法もある。目、鼻、口で15の点を利用している。計算量は増えるが精度が大幅に向上する。 [70] ビデオ監視を目標にした2ステップの手法も提案されている。まず、68個の顔のランドマークを予測。次に極空間モデルの異なるセクターにマッピングされる。この手法は合理的な距離で一般的なデバイスで動作可能である。幾何学的手法の利点は平行移動と回転に対して頑健であること。欠点として、キーポイントの検出と、追跡が失敗しやすい。従来手法[71] は様々な要因でランドマーク決めに失敗する可能性がある。ある程度の解像度が必要。頭部姿勢を容易に推定する特徴量は非常に少なく、顔画像からの抽出には多くの課題が残されている。

追跡法

追跡済みの頭部の時間情報を利用した強力な手法である。ステレオカメラリグを用いた、ポーズの相対的変化を予測することが可能。既知の頭部姿勢からランドマークをたどるボトムアップ方式を採用している。一定の時間間隔に沿った推定値のために滑らかな動きの制約が必要。トラッカーによる真値データの自動生成や[85]ビデオ特徴の追跡による推定など。この手法について。まず顔領域検出。次にキーポイント特徴抽出し、ビデオ上で追跡。次に追跡された点から回転行列を求める。最後にクリックイベントによるシステム上のポインタの位置を計算。欠点として正面から計算を始める必要がある。

埋め込みに基づく方法

脳の低次元的多様性が複雑な周囲環境下でもすぐに物体認識を可能にするという仮定[86]。はじめに顔の低次元表現から始まる。次に異なる角度の顔のマッピングが生成される。ここから線形手法と非線形手法に分かれ、線形手法は行列演算により容易だが非線形手法は表現力に優れる。

回帰手法

非線形回帰アルゴリズムは、画像空間から異なるポーズへの関数マッピングを学習することで頭部方向を推定する。利点はラベルつきトレーニング画像により、新しいデータに対する離散・連続ポーズを予測可能。ただし、適切なマッピングを効率的に学習できることを保証できず、ある手法では次元が高いことが問題になっている。これは次元削減によりSVRを適用することでよい性能を出す。また局所勾配ヒストグラムも適しており、顔画像の特徴位置がわかっている場合、特定のキーポイントで抽出された低次元特徴に対し効果的。基本的にはニューラルネットワークが使用されるが、MLPモデルの使用により連続的ポーズ推定も可能。

3D頭部モデルによるレジストレーション

この手法では、計測データは参照用の頭部モデルに登録される。

検出器配列

複数の顔検出器によりモデルを学習。そのカップルが相互に不一致にならないと仮定したうえでのシーケンスでテストが評価される。

影響力ベースモデリング

これは、社会システムにおける個人間の影響をモデル化し、ある状態の行為者が他の行為者からどのように影響されるかを予測するために導入される。 1枚の顔画像が様々な顔画像解析タスクにとって十分な情報量を持ち、タスク同士が影響を与え合うため、複数のタスクを共同で扱うために応用する。

ディープラーニング

ディープラーニング手法（DL）アプローチ、特に畳み込みニューラルネットワーク（CNN）に基づくアプローチは、大規模なデータセットが利用できる場合、難しい視覚的タスクのための特徴ベースの機械学習ソリューションを凌駕する。DLへの移行に伴い、従来の機械学習アルゴリズムに特有のいくつかの欠点や制限が緩和された。例えば、以前に議論されたハイブリッドモデルは、これらの著作[119,125,126]に見られるように、DLによって大幅に改善されるようになった。127]で提案された手法では、設計されたフレームワークは、事前のステップとしてランドマーク推定を必要とせずに、CNNを使用して画像強度から3D頭部姿勢を推定する。同様に、QuatNet[128]ではCNNが多重回帰損失関数と組み合わされ、頭部姿勢推定問題は四元数で定式化されている。129]で提案された深層学習ベースの手法は、かなり古いが挑戦的なデータベースであるPointing'04を用い、単一の低解像度画像から広い角度範囲（ピッチとヨー）の様々な頭部ポーズの学習と分類のためにCNNを用いるものである。従来の機械学習手法は、実験室で制御された環境で収集されたデータベースでは十分な性能を発揮するが、自然界で収集されたデータベースにさらされると、その性能は低下するのが常であった。しかし、[130]で提案された手法は、制約のない条件で収集された画像のHPEタスクに対応している。著者らは、いくつかのCNNモデルの厳密な評価を行い、CNN、ドロップアウト、適応勾配法に基づくアプローチが、いかに野生におけるHPEのための現在のSOAを代表するものであるかを示している。131]で想定された1枚の画像から頭部姿勢を予測するDLソリューションは、3D顔モデルをレンダリングすることで合成学習データを生成するものです。レンダリングデータと実世界のギャップを埋めるために、この先駆的研究は、学習中にソースドメインの重み付き再サンプリングを適用することにより、連続ラベル空間へのドメイン適応を実装しています。Biwiデータセットと、HPEと領域適応のための新しいベンチマークデータセットであるSynHead++、SynBiwi+、Biwi+のバリエーションでHPEの結果を計算する。この研究では、合成画像からのラベルのみを使用するにもかかわらず、このアプローチが実世界の画像に対するHPEの精度を向上させることを示す。Hongら[132]は、HPEにCNNベースの回帰を利用し、マルチビュー問題とマルチモーダル問題を一つのモデルに統合する手法を提案している。従来の畳み込み層は、多様体正則化を用いて改良され、ニューロンの局所性特性を維持し、より良い特徴表現を学習することが可能である。異なるビュー、異なるモーダル、異なるタスクからのデータを扱うことができるこれらのネットワークは、Pointing'04やBiwi kinectなどのベンチマークデータセットでテストされています。DL、より具体的にはCNNは、頭部姿勢推定問題を解決するための決定的なアプローチを示すことができるが、これまでのところ、その使用は散発的であった。これらの技術は比較的最近のものであるため、この分野での完全な可能性を評価する必要性が残っている。

評価指標と真値

評価指標

一般的な情報計量はyaw, roll, pitch に対する平均絶対誤差(MAE)。細かくても荒くてもパフォーマンスを素早く把握でき非常に人気。もう一つあるのは(PEA)。これは精度指標なのでシステム性能に関する情報はほぼ得られない。あとは混同行列。行エントリーに真値、列エントリーに予測ポーズでインデックス化されている。これはエラー行列とも知られ、すべての正しい予測値が表の対角線上に位置するため、分類エラーに対する迅速な視覚的ぎーどバックを得られ、エラー調査がしやすい。

真値作成

HPEのアルゴリズムの評価には、真値が必要。それをどのように収集したか。とはいえ収集は困難でほとんどのデータにはエラーが含まれる。主な原因として被撮影者の行動やセンサーの品質など。このような複雑な撮影シナリオにおいて、ヘッドポーズ推定フレームワークの学習と評価のための有効な代替手段は、より現実的なセットアップで取得したデータに対してエラーの可能性が比較的低い合成データセットで構成されます。

人力アノテーション

頭の画像を見て、個人的な認識によってラベルを割り当てる。単一の自由度の粗いポーズを扱ったり、データセットが少ない場合に行われるが、当然エラーの可能性が高くなる。

合成画像による真値

学習データとテストデータを生成する簡単な方法として、頭部ポーズを合成処理する方法。この手法はレンダリングにより3Dモーファブルモデル用いて真値を作成する。モデルを仮想的な地面に接地し、カメラを頭部モデルと同じ球面上でランダムに移動させる。カメラの視点変更により、疑似的に頭部回転に相当した画像を得る。またカメラとモデルの距離を操作しやすい。これらのデータベースには鼻先の3次元座標と3つのオイラー角の回転を適用した座標が注釈される。図の鼻から出てる赤い線が頭の向きを示す。欠点として、表情が固定で背景や頭部の一部が欠落。環境によって失敗する可能性。

方向性提案

pointing'04は方向指示によって収集されている。これは室内のマーカーを見て固定カメラで撮影した顔画像を得る。エラーとなりそうな要因が多く、あまり現実的でない。

レーザーポインター

頭部にポインター設置による測定。マーカー見るのと大してかわらん

カメラアレイ

複数のカメラを設置し撮影する。頭部固定なのでカメラの位置から真値を決める。連続的に推定する場合は向いてない。

磁気センサー

磁気センサーを頭部に取り付け、レーザーポインターと同様に位置と頭の向きを測定。いろいろ製品がある。欠点は小さな金属にも敏感に反応してしまうこと。

感性センサ

頭に加速度計やモーションセンサを取り付ける。頭部位置を正確に把握するのは難しいが磁気センサみたいに影響を受けることはない。

光学式モーションキャプチャ

プロフェッショナルな映画撮影などに。

性能比較と考察

これまで過去10年の論文を比較してきた。表2に類するアルゴリズムとテストされたデータベースに従って整理されている。表3に異なるデータベースに関するMAEの観点からの性能比較。PEAの値も。

考察

以下まとめ

HPEは活発。表2は研究概要、表3は性能結果について
今もPointing'04が良く使われている。データの複雑な要因の数々が評価される。
真値の質は徐々に向上している。手動によるデータはやっぱり精度が低い。
真値ラベルが不正確な場合、それを考慮したアルゴリズムの評価が必要。真値ラベルの精度から真の精度を推定できるはず。DLへの理解を深めること、現在の学習データの不足による。
IBMの手法は顔分析タスクに共同に使える点。欠点に制約が必要。
DLは制約なしのデータベースで優れた結果。ハイブリッドはそこそこ。
表3に平均MAE、平均PEA。離散ポーズに関する情報について書いてないものが多いため穴抜けが多い。一般的に正面やそれに近いMLの多くは満足いく動作である。しかし、姿勢が極端に変化すればその限りでない。IBMは極端なポーズに対し、顔の下の部分分割の予備知識の利用により良い結果を出す。
アルゴリズムでは、異なる実験セットアップと検証プロトコルが採用されている。同じデータであっても、表3に報告された結果は違うプロトコルを使っている可能性がある。気を付けよう。
完全なHPEにはyaw, pitch, roll, 全ての推定が必要。rollが簡単で、他2つが困難であるが、yawは視線などで用いる重要性から重視されてきたが、DLにより3つとも推定する研究がほとんどになった。
DLはますます移行していくだろう。深層学習のトレーニングの困難さと正確な真値データ作成の問題を考えると不正確な監視学習と、知識移転は検討されるべき。他の改善すべき点はデータ増強やfoveated アーキテクチャなど。大きな障害は大量のトレーニングデータ構築の困難さにある。知識移転のためのあまり調査されていない領域には、異種ドメイン適応のオプション。知識移転は属性が異なる場合にトレーニングドメインからテストドメインに移行し、トレーニングデータのラベル付け作業の最小化に有効。他のドメインのデータを利用することもあるため、最小限のラベルを使用することもあります。今後のキーワードの予想は、3次元畳み込み、LSTM, オプティカルフローフレーム、店舗らるプーリングなどがあげられる。
まとめと結論

頭部姿勢予測は顔画像分析の中間ステップである。制約なしで画像を収集した場合は依然困難。この論文では、一般に利用可能なデータベースのリストを含む、HPE手法の詳細なサーベイを提示する。また、既存のソリューションのいくつかの側面についても調査しました。まず、単純な手作業で作成された表現に基づくSOA手法をレビューした。次に、最近導入されたディープラーニングのフレームワークについて検討しました。また、この分野でこれまでに得られたSOA性能の比較分析も行った。最後に、HPEにおけるいくつかの未解決の問題を明らかにした。最後に、今後の研究の方向性について述べました。特に、新しく導入された深層学習技術について、最も困難なデータセット、すなわち制約のない環境で収集されたデータセットに対する評価をより多く行うことを期待しています。また、影響力モデリング手法とDLとの組み合わせも興味深い方向性です。別の可能性としては、幾何学的手法によって影響モデリングを拡張し、特徴抽出と分類が特定のDLアーキテクチャを利用できるようにすることである。

Shinosuke7110 / read-papers