我々は、深度画像から犬の3次元形状と姿勢を予測するシステムを発表しました。また、様々な形状や品種の犬のモーションキャプチャ、RGBD、RGBカメラからのデータセットをコミュニティに提示した。我々の予測ネットワークは、このデータを活用して合成的に生成された奥行き画像を用いて学習され、実際のKinectの入力があれば、3D骨格ポーズ予測にうまく機能することが実証された。我々は、3Dグランドトゥルースの関節位置に対して結果を評価し、我々のアプローチの有効性を示しました。図9は、本パイプラインを他の動物種に拡張する可能性を示しています。我々は、より多様なポーズのトレーニングセットが、図9の失敗例よりも正確な結果をもたらすと期待しています。複数フレームに渡って骨の長さを推定するオプションを除けば、我々のパイプラインは時間的制約を含んでいないため、より正確で滑らかな動きのシーケンスを予測することにつながるだろう。現在、マスク生成は追加の前処理ステップを必要とし、KinectのRGBチャンネルに基づいている。その代わりに、姿勢予測ネットワークは、犬が深度画像自体から抽出されるステップを実行することができる。これは、犬の抽出がもはやテクスチャ情報に依存しないので、より堅牢なマスクを生成することができる。現在、GAN(General Adversarial Networks)が最先端の結果を出すと考えられているので、関節の回転を直接回帰するように我々のネットワークを更新し、これをGANと組み合わせて姿勢予測を制約する予定である。
謝辞 本研究は、Centre for the Analysis of Motion, Entertainment Research and Applications (EP/M023281/1), the EPSRC Centre for Doctoral Training in Digital Entertainment (EP/L016540/1) and the Settlement Research Fund (1.190058.01) of the Ulsan National Institute of Science & Technologyにより支援されました。
Authur 筆者
Sinéad Kearney
Motivation なぜやろうとしたか
Method 手法
Insight 結果
Contribution 貢献の要約
Keyword 新しいキーワードなど
Unknown 何が今だ不明か
Reflection 考察
Reference 関連研究
概要
マーカーを持たない画像から動物の3次元姿勢を自動的に抽出する。 これまでの研究では、関節位置の2次元ラベリングに基づいて姿勢推定するものがほとんど。しかし、学習データの取得が困難なため、定量的に評価するための動物の3次元運動の正解データセットが存在しない。また、動物の3次元姿勢データがないため、3次元姿勢予測手法の学習が困難である。 我々の研究では、RGBD画像からの犬の3D姿勢推定の問題に焦点を当て、3Dグランドトゥルース骨格を取得する。このデータから合成RGBD画像のデータセットを生成する。3D関節位置を予測するために積層型砂時計ネットワークを学習し、次に形状とポーズの事前モデルを用いて制約を与える。 我々は、合成と実RGBD画像の両方で我々のモデルを評価し、その結果を、画像に犬のモデルを適合させた既往の研究結果と比較する。
イントロ
動物を対象とした姿勢推定([7], [3], [37], [38])。動物で姿勢推定するには訓練された動物にマーカーをつけねばならない。 人間の姿勢推定にはニューラルネットワークが最適であり、一般に2Dおよび3Dのアノテーションを提供する広く利用可能な大規模データセットで学習する必要がある([33], [1], [15], [16]).しかし、現在のところ、サンプル数、種類、アノテーションに関する同規模の3D動物データセットは存在せず、姿勢予測に関する比較可能な研究やアプローチを実現することは困難である。 本論文では、RGBD画像からイヌの3次元骨格ポーズ推定を行うためのマーカーレスアプローチを提案する。そのために、スキニングされた3Dメッシュ、同期されたRGBDビデオ、およびグランドトゥルースとして機能するモーションキャプチャシステムから取得した3D骨格データを含むイヌのデータセットを提示する。SMALモデルと比較してより多くの表現が可能であることを提案します。 本手法では、モーションキャプチャシステムで生成された犬の骨格とメッシュを利用し、大規模な合成データセットを生成する。このデータセットを用いて、3次元関節データとそれに対応する投影2次元アノテーションを用いて、予測ネットワークと生成モデルを学習する。多くの動物は環境に溶け込むように進化しており、同じような色の手足では曖昧さが生じるため、RGB画像だけでは姿勢予測に十分でない場合があります。一方、深度画像はテクスチャ情報に依存しないため、関節を予測するための表面情報を提供するという利点もあります。 データセットの生成プロセスの詳細は3.2節で説明する。純粋な合成画像でネットワークを学習させたにもかかわらず、セクション4.1で述べたように、実際の深度画像でテストしたところ、高い精度を達成することができた。さらに,4.3節で説明するように,犬だけを用いてネットワークを訓練しても,馬やライオンなど,同様にレンダリングされた四足獣に対して,もっともらしい結果を出すことができることがわかった。 ディープネットワークが予測する関節の位置は、誤差を含んでいる可能性がある。これらの限界に対処するため、我々は関節ポーズ構成に関する事前情報である階層的ガウス過程潜在変数モデル(H-GPLVM)[18]を採用する。これにより、高次元の非線形データを低次元で表現することができ、同時に我々のデータの骨格構造を利用することができる。要約すると、我々の主な貢献は以下の通りである。
関連研究
動物の2Dポーズ推定。
動物や昆虫の2D姿勢と位置のデータは、様々な行動研究において有用である。これまでのほとんどのソリューションでは、キーフレームに基づく特徴トラッカーを学習するために、対象となる動物や昆虫の少数の画像例を使用する浅い学習のニューラルネットワークアーキテクチャを使用しています。
3D動物姿勢推定
Zuffiら[39]は、スキャンしたおもちゃの動物のデータセットから作成した、動物の外観をPCA形状と姿勢依存の形状パラメータ(膨らんだ筋肉など)に分離するSkinned Multi-Animal Linearモデル(SMAL)を導入しています。回帰行列により、与えられたメッシュの関節位置を計算する。 SMAL with Refinement (SMALR) [38] は、SMALモデルを拡張して毛皮のテクスチャを抽出し、より正確な動物の形状を達成する。両手法とも、必要に応じてシルエットを手動で作成し、手動で選択したキーポイントがモデルのフィッティングのガイドとなる。 SMAL with learned Shape and Texture (SMALST) [37] では、ニューラルネットワークがRGB画像から特定の品種のシマウマの姿勢と質感とともに形状パラメータを自動的に回帰し、シルエットとキーポイントの必要性を排除している。 Biggsら[3]は、Deeplab[8]を用いてビデオから自動的に抽出されたシルエットのシーケンスにSMALモデルを適合させている。CNNは、SMALモデルを用いて生成されたトレーニングセットを用いて、2D関節位置を予測するために学習される。四則演算と遺伝的アルゴリズムにより、最適な2D関節位置を選択する。その後、SMALを関節とシルエットにフィットさせる。また、ニューラルネットワークの学習では、おもちゃの動物や人間が作成した歩行サイクルからポーズをとるSMALモデルやその亜種とは対照的に、犬の実際の動きから記録したモーションキャプチャデータの大きな基盤から合成RGBDデータを生成しています。
合成学習データによる姿勢推定
RGB画像から姿勢を予測する場合、一般に実画像と合成画像を組み合わせて学習することで、実画像または合成画像のみで学習するよりも正確な予測ができることが分かっています([35], [9], [29] )。また,深度画像に関する以前の研究では,合成画像による学習のみでも実画像でテストした場合に正確な結果が得られることが示されている[17].ランダムフォレストは,深度画像からの姿勢推定によく利用されています.これには、ピクセルを人体の部位でラベル付けするもの([32])、マウスの体の部位([25])、人体モデルの表面メッシュに密に対応させるもの([34])があります。Sharpら[31]はKinect v2を用いてリアルタイムに手をロバストに追跡している。 また、最近では、深度画像からの姿勢推定にニューラルネットワークが利用されている。Huang & Altamar [14]は、人体姿勢の合成深度画像のデータセットを生成し、これを用いて上半身の姿勢を予測する。Muellerら[24]は2つのCNNを組み合わせて、手のポーズを探し出し、予測する。関節の回転の時間的な滑らかさと骨の長さが映像全体で一貫していることを保証するために、運動学的モデルが3D関節に適合される。 我々の研究では、選択された犬のモーションキャプチャデータを使用して、合成深度画像のデータセットを生成する。このデータセットを用いて、3次元空間における関節の位置を予測する積層型砂時計ネットワークを学習させる。このネットワークによって予測された関節があれば、PCAモデルを用いて未知の犬の形状を予測することができる。また、H-GPLVMを用いて、物理的に妥当な関節位置に制約を与えることができる。私たちは、RGBD画像から動物の3次元形状と姿勢を予測するためにニューラルネットワークを学習させる。
3.手法
このパイプラインは、予測ステージと絞り込みステージの2つのステージから構成される。予測ステージでは、Newellら[27]による積層型砂時計ネットワークが、与えられた深度画像に対して2Dヒートマップのセットを予測する。これらから、3次元の関節位置が再構成される。このネットワークを学習するために、Vicon社の光学式モーションキャプチャシステムを用いて、同じ5つの動作を行う5匹の犬から骨格モーションデータを記録した(セクション3.1)。これらの骨格はそれぞれの犬のメッシュを構成し、KinectノイズモデルによってRGBD画像としてレンダリングされ、大規模な合成学習データセットが生成される(セクション3.2)。3.3では、ネットワーク学習データの詳細と、ヒートマップからの3D関節再構成について説明する。洗練段階では,スケルトンの関節回転に対 して学習させた H-GPLVM[19] を用いて,予測された 3D 関節の位置を拘束する(セ クション 3.4)。得られたスケルトンは,ユーザから提供された,あるいは形状モデルから生成されたメッシュをアニメーション化することができ,その後,スケルトンのルートのグローバル変換をさらに洗練するために,深度画像のポイントに位置合わせをすることができる。本論文では,Biggs ら[3]の手法と我々の結果を比較し,セクション 4 において,合成画像と実画像のグランドトゥルース関節位置で我々の手法を評価する.図 2 と図 3 はそれぞれ、我々のアプローチの予測段階と精密化段階の概要を示している。
3.1動物のモーションデータ収集
様々な体型や大きさを持つ5匹の犬に着目した。訓練用と検証用のセットには、それぞれの犬について同じ5つの動作が選ばれ、さらに任意のテストシーケンスもテスト用に選ばれました。この5頭の犬に加えて、トレーニングセットには含まれない2頭の犬がパイプラインの評価に用いられた。これらのドッグを図4に示す。 20台の赤外線カメラを搭載したViconシステムを用いて、犬の特注キャプチャスーツのマーカーを記録した。Vicon はマーカーを 119.88 fps で記録し、骨格データは 59.94 fps でエクスポートされた。また、最大6台のKinect v2も同時に録画し、libfreenect2ライブラリ[4]を使用してデータを抽出した。Kinectは30fpsで記録していますが、複数のデバイスを同時に使用することで、全体のフレームレートが6fpsに低下しています(グランドトゥルースセット)。しかし、これは我々の予測ネットワークの性能に影響を与えません。録画に関する詳細は補足資料(Sec. 2.1)に記載されている。
3.2合成RGBDデータ生成
犬の骨格のテンプレートは、解剖学的な骨格に基づいている[11]。人間と異なり,犬の肩は鎖骨に拘束されて いないため,並進と回転の自由度があります[10].また,耳は剛体骨でモデル化され,並進の自由度が与えられているため,頭蓋骨の底辺に対して耳を動かすことができる.骨格には,合計 43 の関節があり,95 の自由度を持つ.各犬のニュートラルメッシュは、写真測量による復元を参考に、アーティストが作成しました。メッシュを対応するスケルトンにスキニングするために、リニアブレンドスキニングが使用されており、ウェイトもアーティストによって作成されています。スキニングされた3DスケルトンからリアルなKinect画像を作成するために、InteriorNet [20]の同様のプロセスを踏襲している。これは,仮想環境内の犬の 3 次元メッシュが与えられたとき,物体に投影された独自の赤外線ドットパターンをモデル化し,さらにステレオ再構成を使用して高密度な奥行きを実現するものである.この処理は、奥行き方向の影やオクルージョンを含むKinectイメージングシステムの特徴をほとんど保持していると推測される。図5に実画像とKinect合成画像の比較を示す。また,各犬の深度画像とそれに対応する2値マスクを生成するために,最大30台の合成カメラを使用した.ヒートマップ生成のための画像とジョイントデータの正規化の詳細は補足資料に記載されています。データセットのサイズは、これらの画像のミラーリングバージョンを使用することにより2倍になり、トレーニングセットでは650,000画像、検証セットでは180,000画像となります。データ生成の概要は、図2の「Train」セクションで見ることができます。 ------ ここまで
3.3骨格姿勢予測ネットワーク
積層砂時計の枠組みを使うために、関節を2次元ヒートマップとして表現する。ネットワークへの入力は256x256のグレイスケール画像であり、この座標空間において3D関節J3D256が定義される。入力画像が与えられると、ネットワークは129枚のヒートマップHのセットを生成し、それぞれのサイズは64x64ピクセルである。犬の骨格の各関節jは3つのヒートマップと関連付けられ、そのインデックスは既知である:hjXY , hjY Z , hjXZ , それぞれjのxy-, yz, xz座標を表している。このセットは我々の実験において最も正確な結果を提供した。ネットワークの学習に必要なヒートマップを作成するために、J3D256は64x64の画像座標に変換される。この変換された座標をJ3D64とすると、J3D64 = floor(J3D256/4) + 1となる。J3D64のxy-, yz, xz座標を中心とするヒートマップにおいて、1ピクセルの標準偏差を持つ2次元ガウスを生成する。Biggsら[3]に触発され、動物の矢状面に沿った対称的な関節(すなわち、脚と耳)は、マルチモデルヒートマップを生成する。ヒートマップ生成の技術的な詳細は補足資料に記載されています。ニューラルネットワークはNewellらによる2段重ねの砂時計型ネットワークである[27]。ダウンサンプリングとアップスケーリングの連続した段階により、様々なスケールの特徴を組み合わせることができるため、この特定のネットワークが選ばれた。このように、グローバルスケールとローカルスケールで画像を観察することで、被写体のグローバルな回転をより容易に決定することができ、関節間の関係を利用してより正確な予測を行うことができる。我々はYang[36]によって提供されたコードに基づき、PyTorchを用いてネットワークを実装する。RMSprop を最適化器として使用し、学習率は 0.0025 で、バッチサイズは 6 である。我々の損失関数は、グランドトゥルースとネットワークによって生成されたヒートマップ間のMSEである。
2次元の関節位置からの3次元姿勢回帰
ネットワークで生成されたヒートマップが与えられたら、各関節のX軸、Y軸、Z軸の位置を64x64の画像座標で表したJ3D64の値を決定する。各関節 j は hjXY , hjY Z , hjXZ の 3 つのヒートマップに関連付けられている。単峰性のヒートマップを生成する関節では、hjXY , hjY Z , hjXZ の集合から最も高いピークを持つヒートマップが3つの座標のうち2つの値を決定し、残りの座標は2番目に高いピークを持つマップから取得される。多峰性のヒートマップを持つ関節の場合、まず3つのヒートマップの中で最も高いピークを参照し、次に2番目に高いピークを参照するこのステップを繰り返す。この処理により、対称的なペア(jp1、jp2)を形成するすべての関節について、2つの関節位置の候補が得られる。jp1の予測座標のXY位置がjp2のXY位置の閾値内にある場合、ネットワークが誤って両方の関節の同じ位置を予測したと仮定する。この場合、最も信頼度の高い関節がこの座標を保持し、残りの関節にその次に可能性の高い関節を割り当てる。J3D64が決定されると、その座標はJ3D256に変換される。このステップの前に、Newellら[27]と同様に、J3D64の予測値に1/4ピクセルオフセットが適用される。まず、予測された各関節の4ピクセル近傍で、最も高い値を持つ近傍の位置を決定する。この位置が、適用されるオフセットの方向を決定する。著者らは、このオフセットの追加により、関節予測精度が向上することを指摘している。最後に、J3D64を256x256の画像に合うようにスケーリングし、J3D256を得る。ネットワーク入力用に画像を変換する際に取得した画像のスケールと平行移動を反転させ、J3D256のxy座標をフルサイズ画像における投影であるJ2Dfullに変換するために使用する。J3D256の各関節のカメラ空間における深度を算出するため、画像と関節データの正規化処理を反転して適用する。J2Dfullは、カメラの固有パラメータと予測される各関節の深度を用いて、J3Dcamに変換される。
ポーズ・プリオールモデル
これまでのポーズモデルでは、Safonovaら[30]の研究のようにPCAモデルを用いて骨格の回転を表現するものがあったが、この種のモデルでは、犬にとって物理的に不可能なポーズを生成することがわかった。対照的に、ガウスプロセス潜在変数モデル(GPLVM)[18]は非線形データをモデル化することができ、低次元の多様体上で高次元の骨格を表現することができる。階層的GPLVM(H-GPLVM)[19]は、骨格の異なる部分間の関係を利用する。耳の動きはモデルから除外される。耳は柔らかい組織でできているため、他の体の部分の姿勢よりも、犬の速度の影響を受けることがほとんどである。これにより、骨格の自由度は95から83に減少した。骨の回転は単位四元数として表現され、肩の移動は静止位置に対して定義されます。また、鏡像のポーズもモデルに含まれている。補足資料には,我々の階層に関するさらなる技術的な仕様が含まれている(Sec.) 2つの四元数の類似度はドットプロダクトを使用して計算され,骨格内のすべての骨の結果を合計して最終的な類似度値を与える.類似度の閾値を0.1に設定することで、シーケンス内のフレーム数を約50~66%削減することができます。データマトリックスはSから構築され、正規化されます。バックコンストレイントは、モデルを最適化する際に使用され、類似したポーズが多様体において互いに近接して配置されることを意味します。
予測された接合部へのH-GPLVMのフィッティング
H-GPLVMのフィッティングを助けるために、ネットワークによって予測された各関節に重みが関連付けられています。これらの重みに関する情報は、補足資料に記載されている。H-GPLVMのルートノードの初期座標を見つけるために、k-meansクラスタリングを用いて50の潜在的な座標をサンプリングする。根元の移動を固定したまま、ネットワークが予測した関節とモデルが生成した関節の間のユークリッド距離を最小化する回転を見つける。最も誤差の少ない姿勢と回転が、次の最適化ステップの初期値として選択される。次に、H-GPLVM座標とルート回転が改良される。この段階では、関節投影誤差が含まれます。これは、ネットワークがもっともらしい2D予測を与えるが、3D予測にノイズがある場合に、ポーズ推定に役立つことがわかったからです。モデルのルートノードによって生成されたベクトルは、ツリーに沿ってさらにノードの初期座標を提供します。そして、モデルのすべてのリーフノード、ルート回転、ルート移動が同時に最適化されます。フィッティングプロセスでは、ネットワークによって予測された関節位置と、H-GPLVMによって予測された関節位置の間の距離を最小化することを目指す。式1は、対応する損失関数を定義している。![20220818](https://user-images.githubusercontent.com/103297035/185337332-db2fc1ef-c375-45cb-8bb6-05c220f54e93.PNG)
ここで、Bは骨格の関節数、J = [j1, ..., jb]はネットワークから予測された関節位置の集合、= [ 1, ..., b]は各関節に関連する重みの集合、は透視投影関数、はモデルをフィットする際の2D情報の影響である。H-GPLVMの与えられたノード(複数可)のn次元座標の集合をXとし、集合X、ルート回転R、ルート移動T、肩の移動tを受け取り、3次元関節の集合を生成する関数をFとする。図 3 に処理結果を示す。
実験結果と評価
本アプローチを評価するために、犬ごとに1つずつ、計5つのテストシーケンスについて、RGBDデータから犬の形状と姿勢を予測した。各シークエンスは、犬のグローバルな方向が広い範囲をカバーするように選択され、サイドビューとフォアショートビューの両方があり、彼らの行動は一般的な歩行/探検の動きから構成されています。各ケースにおいて、我々は形状と姿勢を予測し、モーションキャプチャシステムから得られたグランドトゥルース骨格と比較した(セクション3.1参照)。実験の詳細な分析、実験のセットアップの技術的な詳細、およびビデオの結果については、補足資料を参照してください。深度画像から犬の骨格を自動的に抽出する方法はこれまでなかったため、Biggsら[3]の結果と比較し、BADJAの結果と呼ぶことにします。なお、著者の手法はシルエットデータのみを必要とするため、我々の手法の方がより正確な結果を出すと予想される。両アルゴリズムはノイズのない画像でテストされます。我々のシステムの精度を測定するために、2つのメトリクスを使用する。MPJPE(Mean Per Joint Position Error)とPCK(Probability of Correct Keypoint)である.MPJPEはユークリッド距離を測定し,2つの骨格の根を合わせた後に計算される.MPJPEの変形版として、プロクラステス解析を用いて予測骨格とグランドトゥルース骨格の位置合わせを行います。PCKは、予測された関節が真の値から閾値の範囲内にある状況を記述する。閾値は*Aであり、Aは非ゼロの画素値を持つ画像の領域で、=0.05である。値は[0,1]の範囲で、1はすべての関節が閾値内にあることを意味する。PCKは3D予測にも使用でき[23],この場合,閾値は人物の頭の幅の半分に設定される。我々は頭の骨の長さしか判断できないので、閾値を1に設定し、頭の骨の長さが2単位になるように各骨格をスケーリングします。また、MPJPEとPCK 3Dの値を比較するために、PA PCK 3Dを用い、PA MPJPEと同様に関節の位置合わせを行い、PCK 3Dを計算します。犬の四肢はオクルージョンが多いため、誤差は以下のグループに分けて報告しています。All:骨格に含まれるすべての関節、Head:首と頭に含まれる関節、Body:背骨と4足に含まれる関節、Tail:尻尾に含まれる関節。図 6 に、使用した 2 つの骨格の構成と、各グループに属する関節を示す。各犬のパイプラインには、個別のニューラルネットワーク、H-GPLVM、形状モデルが含まれており、テスト前にその特定の犬からのデータが対応するモデルによって見られないようになっています。表1は、PA MPJPEとPA PCK 3Dの結果を比較したものです。これらの結果をMPJPEとPCK 3Dの結果と比較すると、我々の手法の場合、PA MPJPEは平均0.416の誤差を減らし、PA PCK 3Dは0.233の誤差を増やしました。BADJAの場合、MPJPEのPAは平均1.557の誤差減少、PA PCK 3Dは0.523の誤差増加となり、BADJAのようにシルエットのみからルートローテーションを決定することの難しさを示しています。
パイプラインを実際のKinect映像に適用する
実世界のデータでネットワークを実行する場合、入力画像から犬のマスクを生成するステップが追加される。RGB画像からマスクを生成する理由は、(1)動物を検出するためにあらかじめ訓練されたRGB分割ネットワークが容易に利用できる、(2)RGB画像は深度画像よりも解像度が高く、特に犬の足を地表面から分離する際のノイズが少ない、という2点である。そこで、RBG画像からマスクを生成した後、ホモグラフィ行列を用いて深度画像座標に変換する。マスクの生成には2つの事前学習されたネットワークの組み合わせが用いられる。マスクR-CNN[13]とDeeplab[8]である.詳細は補足資料に含まれている。犬の中立的な形状が未知である場合と既知である場合の3D結果を表2に表示する。また、骨格の例を図8に示す。
4.2. 未知犬の形状推定
表2の「形状既知」の結果を除けば、すべての結果がそうであるように、現在の犬の骨格と中立メッシュが事前に不明である場合、この情報を予測するために形状モデルが使用される。このモデルは18匹の犬から構成されている。5匹の犬はCNNの訓練に使用され、アーティストによって作成された。すべての犬には共通のポーズと共通のトポロジーを持つメッシュが与えられている。PCAモデルは、メッシュ、骨の長さ、共通のポーズからその犬の中立的な立位へのポーズに必要な関節の回転から構築されます。モデルの最初の4つの主成分は、記録された犬と最もよく一致する骨の比率を持つ犬を見つけるために使用されます。これにより、犬の推定ニュートラルメッシュとスケルトンが生成されます。
4.3. 他の四足獣種への展開
我々はBronsteinらによって提供された他の種の3Dモデルで我々のネットワークをテストした([5], [6])。このとき、モデルの画像は3.2節で説明したようにレンダリングされる。本ネットワークの学習データは、5頭の訓練犬と同じ5つの動作からなる。また、3次元モデルの骨格情報は提供されないため、目視により性能を評価する。図9の最初の3列の結果例では、被写体が犬でなくても、学習セットで見た動物の姿勢と似ていれば、ネットワークは良好に動作することがわかる。しかし、動物のポーズがトレーニングセットのポーズ範囲と大きく異なる場合、図9の最後の3つの列に見られるように、予測は劣化します。このことは、さらなる研究の動機付けとなる。
5. 結論と今後の課題
我々は、深度画像から犬の3次元形状と姿勢を予測するシステムを発表しました。また、様々な形状や品種の犬のモーションキャプチャ、RGBD、RGBカメラからのデータセットをコミュニティに提示した。我々の予測ネットワークは、このデータを活用して合成的に生成された奥行き画像を用いて学習され、実際のKinectの入力があれば、3D骨格ポーズ予測にうまく機能することが実証された。我々は、3Dグランドトゥルースの関節位置に対して結果を評価し、我々のアプローチの有効性を示しました。図9は、本パイプラインを他の動物種に拡張する可能性を示しています。我々は、より多様なポーズのトレーニングセットが、図9の失敗例よりも正確な結果をもたらすと期待しています。複数フレームに渡って骨の長さを推定するオプションを除けば、我々のパイプラインは時間的制約を含んでいないため、より正確で滑らかな動きのシーケンスを予測することにつながるだろう。現在、マスク生成は追加の前処理ステップを必要とし、KinectのRGBチャンネルに基づいている。その代わりに、姿勢予測ネットワークは、犬が深度画像自体から抽出されるステップを実行することができる。これは、犬の抽出がもはやテクスチャ情報に依存しないので、より堅牢なマスクを生成することができる。現在、GAN(General Adversarial Networks)が最先端の結果を出すと考えられているので、関節の回転を直接回帰するように我々のネットワークを更新し、これをGANと組み合わせて姿勢予測を制約する予定である。 謝辞 本研究は、Centre for the Analysis of Motion, Entertainment Research and Applications (EP/M023281/1), the EPSRC Centre for Doctoral Training in Digital Entertainment (EP/L016540/1) and the Settlement Research Fund (1.190058.01) of the Ulsan National Institute of Science & Technologyにより支援されました。