Shinosuke7110 / read-papers

読んだ論文についてまとめよう
0 stars 0 forks source link

RGBD-Dog: Predicting Canine Pose from RGBD Sensors #9

Open Shinosuke7110 opened 1 year ago

Shinosuke7110 commented 1 year ago

Authur 筆者

Sinéad Kearney

Motivation なぜやろうとしたか

Method 手法

Insight 結果

Contribution 貢献の要約


Keyword 新しいキーワードなど

Unknown 何が今だ不明か

Reflection 考察

Reference 関連研究

概要

マーカーを持たない画像から動物の3次元姿勢を自動的に抽出する。 これまでの研究では、関節位置の2次元ラベリングに基づいて姿勢推定するものがほとんど。しかし、学習データの取得が困難なため、定量的に評価するための動物の3次元運動の正解データセットが存在しない。また、動物の3次元姿勢データがないため、3次元姿勢予測手法の学習が困難である。 我々の研究では、RGBD画像からの犬の3D姿勢推定の問題に焦点を当て、3Dグランドトゥルース骨格を取得する。このデータから合成RGBD画像のデータセットを生成する。3D関節位置を予測するために積層型砂時計ネットワークを学習し、次に形状とポーズの事前モデルを用いて制約を与える。 我々は、合成と実RGBD画像の両方で我々のモデルを評価し、その結果を、画像に犬のモデルを適合させた既往の研究結果と比較する。

イントロ

動物を対象とした姿勢推定([7], [3], [37], [38])。動物で姿勢推定するには訓練された動物にマーカーをつけねばならない。 人間の姿勢推定にはニューラルネットワークが最適であり、一般に2Dおよび3Dのアノテーションを提供する広く利用可能な大規模データセットで学習する必要がある([33], [1], [15], [16]).しかし、現在のところ、サンプル数、種類、アノテーションに関する同規模の3D動物データセットは存在せず、姿勢予測に関する比較可能な研究やアプローチを実現することは困難である。 本論文では、RGBD画像からイヌの3次元骨格ポーズ推定を行うためのマーカーレスアプローチを提案する。そのために、スキニングされた3Dメッシュ、同期されたRGBDビデオ、およびグランドトゥルースとして機能するモーションキャプチャシステムから取得した3D骨格データを含むイヌのデータセットを提示する。SMALモデルと比較してより多くの表現が可能であることを提案します。 本手法では、モーションキャプチャシステムで生成された犬の骨格とメッシュを利用し、大規模な合成データセットを生成する。このデータセットを用いて、3次元関節データとそれに対応する投影2次元アノテーションを用いて、予測ネットワークと生成モデルを学習する。多くの動物は環境に溶け込むように進化しており、同じような色の手足では曖昧さが生じるため、RGB画像だけでは姿勢予測に十分でない場合があります。一方、深度画像はテクスチャ情報に依存しないため、関節を予測するための表面情報を提供するという利点もあります。 データセットの生成プロセスの詳細は3.2節で説明する。純粋な合成画像でネットワークを学習させたにもかかわらず、セクション4.1で述べたように、実際の深度画像でテストしたところ、高い精度を達成することができた。さらに,4.3節で説明するように,犬だけを用いてネットワークを訓練しても,馬やライオンなど,同様にレンダリングされた四足獣に対して,もっともらしい結果を出すことができることがわかった。 ディープネットワークが予測する関節の位置は、誤差を含んでいる可能性がある。これらの限界に対処するため、我々は関節ポーズ構成に関する事前情報である階層的ガウス過程潜在変数モデル(H-GPLVM)[18]を採用する。これにより、高次元の非線形データを低次元で表現することができ、同時に我々のデータの骨格構造を利用することができる。要約すると、我々の主な貢献は以下の通りである。

ここで、Bは骨格の関節数、J = [j1, ..., jb]はネットワークから予測された関節位置の集合、= [ 1, ..., b]は各関節に関連する重みの集合、は透視投影関数、はモデルをフィットする際の2D情報の影響である。H-GPLVMの与えられたノード(複数可)のn次元座標の集合をXとし、集合X、ルート回転R、ルート移動T、肩の移動tを受け取り、3次元関節の集合を生成する関数をFとする。図 3 に処理結果を示す。

実験結果と評価

本アプローチを評価するために、犬ごとに1つずつ、計5つのテストシーケンスについて、RGBDデータから犬の形状と姿勢を予測した。各シークエンスは、犬のグローバルな方向が広い範囲をカバーするように選択され、サイドビューとフォアショートビューの両方があり、彼らの行動は一般的な歩行/探検の動きから構成されています。各ケースにおいて、我々は形状と姿勢を予測し、モーションキャプチャシステムから得られたグランドトゥルース骨格と比較した(セクション3.1参照)。実験の詳細な分析、実験のセットアップの技術的な詳細、およびビデオの結果については、補足資料を参照してください。深度画像から犬の骨格を自動的に抽出する方法はこれまでなかったため、Biggsら[3]の結果と比較し、BADJAの結果と呼ぶことにします。なお、著者の手法はシルエットデータのみを必要とするため、我々の手法の方がより正確な結果を出すと予想される。両アルゴリズムはノイズのない画像でテストされます。我々のシステムの精度を測定するために、2つのメトリクスを使用する。MPJPE(Mean Per Joint Position Error)とPCK(Probability of Correct Keypoint)である.MPJPEはユークリッド距離を測定し,2つの骨格の根を合わせた後に計算される.MPJPEの変形版として、プロクラステス解析を用いて予測骨格とグランドトゥルース骨格の位置合わせを行います。PCKは、予測された関節が真の値から閾値の範囲内にある状況を記述する。閾値は*Aであり、Aは非ゼロの画素値を持つ画像の領域で、=0.05である。値は[0,1]の範囲で、1はすべての関節が閾値内にあることを意味する。PCKは3D予測にも使用でき[23],この場合,閾値は人物の頭の幅の半分に設定される。我々は頭の骨の長さしか判断できないので、閾値を1に設定し、頭の骨の長さが2単位になるように各骨格をスケーリングします。また、MPJPEとPCK 3Dの値を比較するために、PA PCK 3Dを用い、PA MPJPEと同様に関節の位置合わせを行い、PCK 3Dを計算します。犬の四肢はオクルージョンが多いため、誤差は以下のグループに分けて報告しています。All:骨格に含まれるすべての関節、Head:首と頭に含まれる関節、Body:背骨と4足に含まれる関節、Tail:尻尾に含まれる関節。図 6 に、使用した 2 つの骨格の構成と、各グループに属する関節を示す。各犬のパイプラインには、個別のニューラルネットワーク、H-GPLVM、形状モデルが含まれており、テスト前にその特定の犬からのデータが対応するモデルによって見られないようになっています。表1は、PA MPJPEとPA PCK 3Dの結果を比較したものです。これらの結果をMPJPEとPCK 3Dの結果と比較すると、我々の手法の場合、PA MPJPEは平均0.416の誤差を減らし、PA PCK 3Dは0.233の誤差を増やしました。BADJAの場合、MPJPEのPAは平均1.557の誤差減少、PA PCK 3Dは0.523の誤差増加となり、BADJAのようにシルエットのみからルートローテーションを決定することの難しさを示しています。

パイプラインを実際のKinect映像に適用する

実世界のデータでネットワークを実行する場合、入力画像から犬のマスクを生成するステップが追加される。RGB画像からマスクを生成する理由は、(1)動物を検出するためにあらかじめ訓練されたRGB分割ネットワークが容易に利用できる、(2)RGB画像は深度画像よりも解像度が高く、特に犬の足を地表面から分離する際のノイズが少ない、という2点である。そこで、RBG画像からマスクを生成した後、ホモグラフィ行列を用いて深度画像座標に変換する。マスクの生成には2つの事前学習されたネットワークの組み合わせが用いられる。マスクR-CNN[13]とDeeplab[8]である.詳細は補足資料に含まれている。犬の中立的な形状が未知である場合と既知である場合の3D結果を表2に表示する。また、骨格の例を図8に示す。

4.2. 未知犬の形状推定

表2の「形状既知」の結果を除けば、すべての結果がそうであるように、現在の犬の骨格と中立メッシュが事前に不明である場合、この情報を予測するために形状モデルが使用される。このモデルは18匹の犬から構成されている。5匹の犬はCNNの訓練に使用され、アーティストによって作成された。すべての犬には共通のポーズと共通のトポロジーを持つメッシュが与えられている。PCAモデルは、メッシュ、骨の長さ、共通のポーズからその犬の中立的な立位へのポーズに必要な関節の回転から構築されます。モデルの最初の4つの主成分は、記録された犬と最もよく一致する骨の比率を持つ犬を見つけるために使用されます。これにより、犬の推定ニュートラルメッシュとスケルトンが生成されます。

4.3. 他の四足獣種への展開

我々はBronsteinらによって提供された他の種の3Dモデルで我々のネットワークをテストした([5], [6])。このとき、モデルの画像は3.2節で説明したようにレンダリングされる。本ネットワークの学習データは、5頭の訓練犬と同じ5つの動作からなる。また、3次元モデルの骨格情報は提供されないため、目視により性能を評価する。図9の最初の3列の結果例では、被写体が犬でなくても、学習セットで見た動物の姿勢と似ていれば、ネットワークは良好に動作することがわかる。しかし、動物のポーズがトレーニングセットのポーズ範囲と大きく異なる場合、図9の最後の3つの列に見られるように、予測は劣化します。このことは、さらなる研究の動機付けとなる。

5. 結論と今後の課題

我々は、深度画像から犬の3次元形状と姿勢を予測するシステムを発表しました。また、様々な形状や品種の犬のモーションキャプチャ、RGBD、RGBカメラからのデータセットをコミュニティに提示した。我々の予測ネットワークは、このデータを活用して合成的に生成された奥行き画像を用いて学習され、実際のKinectの入力があれば、3D骨格ポーズ予測にうまく機能することが実証された。我々は、3Dグランドトゥルースの関節位置に対して結果を評価し、我々のアプローチの有効性を示しました。図9は、本パイプラインを他の動物種に拡張する可能性を示しています。我々は、より多様なポーズのトレーニングセットが、図9の失敗例よりも正確な結果をもたらすと期待しています。複数フレームに渡って骨の長さを推定するオプションを除けば、我々のパイプラインは時間的制約を含んでいないため、より正確で滑らかな動きのシーケンスを予測することにつながるだろう。現在、マスク生成は追加の前処理ステップを必要とし、KinectのRGBチャンネルに基づいている。その代わりに、姿勢予測ネットワークは、犬が深度画像自体から抽出されるステップを実行することができる。これは、犬の抽出がもはやテクスチャ情報に依存しないので、より堅牢なマスクを生成することができる。現在、GAN(General Adversarial Networks)が最先端の結果を出すと考えられているので、関節の回転を直接回帰するように我々のネットワークを更新し、これをGANと組み合わせて姿勢予測を制約する予定である。 謝辞 本研究は、Centre for the Analysis of Motion, Entertainment Research and Applications (EP/M023281/1), the EPSRC Centre for Doctoral Training in Digital Entertainment (EP/L016540/1) and the Settlement Research Fund (1.190058.01) of the Ulsan National Institute of Science & Technologyにより支援されました。

Shinosuke7110 commented 1 year ago

https://github.com/CAMERA-Bath/RGBD-Dog