Open IkumaUchida opened 3 years ago
・2次元の情報のみを用いて, 複数の視点から見た人体の姿勢の類似性を認識. ・3Dポーズを明示的に予測することなく, 2Dの関節キーポイントのみからコンパクトな視点不変埋め込み空間を学習するアプローチ
問題設定: ・人物のポーズをとった画像でも、視点や背景等で異なる3Dポーズ ・入力の2D空間の不確実性は、埋め込み空間への決定論的なマッピング(点埋め込み)を用いて表現することは困難 ➡︎多変量ガウシアンに基づいた確率的な埋め込み表現を取り入れた「Pr-VIPE」を提案 ・2次元ポーズで十分に視野不変性を実現可能
概要:2Dposeを入力とし、メトリック学習を用いて学習され,埋め込み分布を出力.
メトリック学習: 参考:https://www.albert2005.co.jp/knowledge/machine_learning/deep_learning/about_deep_metric_learning ・ビュー間の人間のポーズの類似性を理解するために使われる学習法 ・コントラスト損失やトリプレット損失を使った類似度 ・この研究では、ユークリッド埋め込み距離から確率的近似性スコアへのマッピングを行う ・入力に対して確率的埋め込みを適用 確率的近似性➡︎2Dのポーズから3Dのポーズ空間での近さを捉える
・提案手法の概要
・目的は、埋め込み空間における距離が、ユークリッド空間における対応する絶対的な3Dポーズの類似性に対応するように、2Dポーズを埋め込むこと。 ➡︎トリプレット比率損失によって、視野不変特性を得る
3.1 マッチングの定義 2組の3Dキーポイント が与えられた時マッチング指標関数を定義 ・kはマッチングポーズ間の視覚的類似性を制御 ・MPJPEを用いて視覚的な類似性を定量化 ・MPJPEを計算する前に,3Dポーズを正規化し,それらの間にProcrustesアライメントを適用 ➡︎NP-MPJPE ・NP-MPJPEについて、例えばκ = 0.05とした場合、下の図で最初の行のみがマッチングしているとみなされ、残りの行は非マッチングとなる。κを変えた場合の効果については、セクションCでトレーニングと評価の際にさらに検討。
3.2 トリプレット比率損失 ・トリプレット比率損失は式(1)に基づいて2Dポーズを埋め込むことが目的 ・マッピングfを学習する。D(z,z)が埋め込み空間の距離尺度 ・入力された2Dポーズペア(xi,xj)に対して、対応する3Dポーズが一致する確率p(m|xi,xj)を定義 ➡︎メトリック学習で推定 ・β>1は、類似した3Dポーズのペアのマッチング確率と、非類似のペアのマッチング確率の比 ・両辺に負の対数を適用する ・この条件を満たすようにようにモデルを学習するために、triplet loss framework を用いるトリプレット比損失 Lratioは以下の通り、 ・埋め込みを用いてマッチング確率を計算
3.3 Positive Pairwise Loss ・トリプレットに含まれるポジティブなペアは、同じ3Dポーズ ・正のペアワイズ・ロスを追加することで、ペアが持つ高いマッチング確率を表現 ・LratioとLpositiveの組み合わせは、点埋め込みモデルの学習に適用
3.4 Probabilistic Embeddings ・入力である2Dポーズのキーポイントは本質的に曖昧であり、同様の2Dポーズに投影される有効な3Dポーズが多数存在. ・この入力の不確実性は、点埋め込みを用いてモデル化することが困難 ・2Dポーズを確率的な埋め込みにマッピングすることで、埋め込み空間の分布を用いてこの不確実性を表現(x → p(z|x)) ・式(5)を用いて以下のように拡張 ・各分布からK個のサンプルを抽出したモンテカルロサンプリングを用いて以下のように近似 ・p(z|x)を対角共分散行列を持つd次元のガウスとしてモデル化 ・分散がゼロになるのを防ぎ、埋め込みの平均の大きさを正則化するために、KLダイバージェンスを用いた埋め込みに単位ガウス事前分布を置き、ガウス事前分布の損失を追加
・推論時に、単一の2Dポーズ(検出または投影によるもの)を受け取り、埋め込みガウス分布の平均と分散を出力.
3.5 Camera Augmentation Our triplets can be made of detected ・カメラビューへのオーバーフィッティングを減らすために、ランダムなビューに投影された2Dキーポイントと検出されたキーポイントを用いてトリプレットを生成することで、カメラ補強を行う。
3.6 Implementation Details ・3Dポーズの正規化は[7]と同様に行い,2Dポーズのインスタンス正規化も行う ・モデルのバックボーンアーキテクチャはICCV2017の姿勢推定技術 ・特定のポーズ推定器に依存しない ・カメラオーグメンテーションにおけるランダムな回転は,方位角を±180◦,仰角を±30◦,ロールを±30◦の範囲で一様にサンプリング ・学習は全てCPU
実験
データセット ・Human3.6M [18] データセットのサブセットでのみトレーニング ・ポーズ検索の実験では,Human3.6Mのホールドアウトセットで検証を行い,別のデータセット(MPI-INF-3DHP [35])でテスト
4.2 View-Invariant Pose Retrieval 4.2.1 Evaluation Procedure ・Hit@k with k = 1, 10, and 20、これは、検索された上位k個のポーズのうち,少なくとも1つの正確な検索結果が得られた割合 ・検索されたポーズの3Dグランドトゥルースがマッチング関数(1)をκ=0.1で満たす場合、検索は正確であると定義 ・ Pr-VIPEと2D-to-3Dリフティングモデル[34]およびL2-VIPEを比較 Baseline Approaches ・Pr-VIPEと2D-to-3Dリフティングモデル[34]およびL2-VIPEを比較 ・すべてのモデルに同じバックボーン・ネットワーク・アーキテクチャを使用 ・Pr-VIPEでは、検索時にアライメントなどの後処理を必要としない。標本化されたマッチング確率(7)に関して、埋め込み空間の最近傍を用いてポーズを検索➡︎検索信頼度(C)
4.2.3 Qualitative Results
4.3 Downstream Tasks
論文:https://arxiv.org/pdf/1912.01001.pdf サイト:https://ai.googleblog.com/2021/01/recognizing-pose-similarity-in-images.html github:https://github.com/google-research/google-research/tree/master/poem
・マルチビューのデータセットをどうやって準備するか? ・HOIタスクとどう結びつけるか?
メトリック学習: ・Oh, S.J., Murphy, K., Pan, J., Roth, J., Schroff, F., Gallagher, A.: Modeling uncertainty with hedged instance embedding. ICLR (2019) https://arxiv.org/abs/1810.00319 github: ・FaceNet: A Unified Embedding for Face Recognition and Clustering https://arxiv.org/abs/1503.03832
物体検索: ・PIEs: Pose Invariant Embeddings(2019) https://openaccess.thecvf.com/content_CVPR_2019/html/Ho_PIEs_Pose_Invariant_Embeddings_CVPR_2019_paper.html github: ・Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting http://yann.lecun.com/exdb/publis/pdf/lecun-04.pdf github:
3d pose estimation ・A simple yet effective baseline for 3d human pose estimation https://arxiv.org/pdf/1705.03098.pdf
3Dpose の正規化: ・Unsupervised 3D Pose Estimation With Geometric Self-Supervision https://openaccess.thecvf.com/content_CVPR_2019/html/Chen_Unsupervised_3D_Pose_Estimation_With_Geometric_Self-Supervision_CVPR_2019_paper.html
1. 概要(基本アイデア)
・2次元の情報のみを用いて, 複数の視点から見た人体の姿勢の類似性を認識. ・3Dポーズを明示的に予測することなく, 2Dの関節キーポイントのみからコンパクトな視点不変埋め込み空間を学習するアプローチ
2. 新規性
問題設定: ・人物のポーズをとった画像でも、視点や背景等で異なる3Dポーズ ・入力の2D空間の不確実性は、埋め込み空間への決定論的なマッピング(点埋め込み)を用いて表現することは困難 ➡︎多変量ガウシアンに基づいた確率的な埋め込み表現を取り入れた「Pr-VIPE」を提案 ・2次元ポーズで十分に視野不変性を実現可能
3. 手法詳細
概要:2Dposeを入力とし、メトリック学習を用いて学習され,埋め込み分布を出力.
メトリック学習: 参考:https://www.albert2005.co.jp/knowledge/machine_learning/deep_learning/about_deep_metric_learning ・ビュー間の人間のポーズの類似性を理解するために使われる学習法 ・コントラスト損失やトリプレット損失を使った類似度 ・この研究では、ユークリッド埋め込み距離から確率的近似性スコアへのマッピングを行う ・入力に対して確率的埋め込みを適用 確率的近似性➡︎2Dのポーズから3Dのポーズ空間での近さを捉える
・提案手法の概要
・目的は、埋め込み空間における距離が、ユークリッド空間における対応する絶対的な3Dポーズの類似性に対応するように、2Dポーズを埋め込むこと。 ➡︎トリプレット比率損失によって、視野不変特性を得る
3.1 マッチングの定義 2組の3Dキーポイント が与えられた時マッチング指標関数を定義 ・kはマッチングポーズ間の視覚的類似性を制御 ・MPJPEを用いて視覚的な類似性を定量化 ・MPJPEを計算する前に,3Dポーズを正規化し,それらの間にProcrustesアライメントを適用 ➡︎NP-MPJPE ・NP-MPJPEについて、例えばκ = 0.05とした場合、下の図で最初の行のみがマッチングしているとみなされ、残りの行は非マッチングとなる。κを変えた場合の効果については、セクションCでトレーニングと評価の際にさらに検討。
3.2 トリプレット比率損失 ・トリプレット比率損失は式(1)に基づいて2Dポーズを埋め込むことが目的 ・マッピングfを学習する。D(z,z)が埋め込み空間の距離尺度 ・入力された2Dポーズペア(xi,xj)に対して、対応する3Dポーズが一致する確率p(m|xi,xj)を定義 ➡︎メトリック学習で推定 ・β>1は、類似した3Dポーズのペアのマッチング確率と、非類似のペアのマッチング確率の比 ・両辺に負の対数を適用する ・この条件を満たすようにようにモデルを学習するために、triplet loss framework を用いるトリプレット比損失 Lratioは以下の通り、 ・埋め込みを用いてマッチング確率を計算
3.3 Positive Pairwise Loss ・トリプレットに含まれるポジティブなペアは、同じ3Dポーズ ・正のペアワイズ・ロスを追加することで、ペアが持つ高いマッチング確率を表現 ・LratioとLpositiveの組み合わせは、点埋め込みモデルの学習に適用
3.4 Probabilistic Embeddings ・入力である2Dポーズのキーポイントは本質的に曖昧であり、同様の2Dポーズに投影される有効な3Dポーズが多数存在. ・この入力の不確実性は、点埋め込みを用いてモデル化することが困難 ・2Dポーズを確率的な埋め込みにマッピングすることで、埋め込み空間の分布を用いてこの不確実性を表現(x → p(z|x)) ・式(5)を用いて以下のように拡張 ・各分布からK個のサンプルを抽出したモンテカルロサンプリングを用いて以下のように近似 ・p(z|x)を対角共分散行列を持つd次元のガウスとしてモデル化 ・分散がゼロになるのを防ぎ、埋め込みの平均の大きさを正則化するために、KLダイバージェンスを用いた埋め込みに単位ガウス事前分布を置き、ガウス事前分布の損失を追加
・推論時に、単一の2Dポーズ(検出または投影によるもの)を受け取り、埋め込みガウス分布の平均と分散を出力.
3.5 Camera Augmentation Our triplets can be made of detected ・カメラビューへのオーバーフィッティングを減らすために、ランダムなビューに投影された2Dキーポイントと検出されたキーポイントを用いてトリプレットを生成することで、カメラ補強を行う。
3.6 Implementation Details ・3Dポーズの正規化は[7]と同様に行い,2Dポーズのインスタンス正規化も行う ・モデルのバックボーンアーキテクチャはICCV2017の姿勢推定技術 ・特定のポーズ推定器に依存しない ・カメラオーグメンテーションにおけるランダムな回転は,方位角を±180◦,仰角を±30◦,ロールを±30◦の範囲で一様にサンプリング ・学習は全てCPU
4. 結果
実験
データセット ・Human3.6M [18] データセットのサブセットでのみトレーニング ・ポーズ検索の実験では,Human3.6Mのホールドアウトセットで検証を行い,別のデータセット(MPI-INF-3DHP [35])でテスト
4.2 View-Invariant Pose Retrieval 4.2.1 Evaluation Procedure ・Hit@k with k = 1, 10, and 20、これは、検索された上位k個のポーズのうち,少なくとも1つの正確な検索結果が得られた割合 ・検索されたポーズの3Dグランドトゥルースがマッチング関数(1)をκ=0.1で満たす場合、検索は正確であると定義 ・ Pr-VIPEと2D-to-3Dリフティングモデル[34]およびL2-VIPEを比較 Baseline Approaches ・Pr-VIPEと2D-to-3Dリフティングモデル[34]およびL2-VIPEを比較 ・すべてのモデルに同じバックボーン・ネットワーク・アーキテクチャを使用 ・Pr-VIPEでは、検索時にアライメントなどの後処理を必要としない。標本化されたマッチング確率(7)に関して、埋め込み空間の最近傍を用いてポーズを検索➡︎検索信頼度(C)
4.2.3 Qualitative Results
4.3 Downstream Tasks
5. 論文,コード等へのリンク
論文:https://arxiv.org/pdf/1912.01001.pdf サイト:https://ai.googleblog.com/2021/01/recognizing-pose-similarity-in-images.html github:https://github.com/google-research/google-research/tree/master/poem
6. 感想,コメント
・マルチビューのデータセットをどうやって準備するか? ・HOIタスクとどう結びつけるか?
7. bibtex
8. 関連論文
メトリック学習: ・Oh, S.J., Murphy, K., Pan, J., Roth, J., Schroff, F., Gallagher, A.: Modeling uncertainty with hedged instance embedding. ICLR (2019) https://arxiv.org/abs/1810.00319 github: ・FaceNet: A Unified Embedding for Face Recognition and Clustering https://arxiv.org/abs/1503.03832
物体検索: ・PIEs: Pose Invariant Embeddings(2019) https://openaccess.thecvf.com/content_CVPR_2019/html/Ho_PIEs_Pose_Invariant_Embeddings_CVPR_2019_paper.html github: ・Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting http://yann.lecun.com/exdb/publis/pdf/lecun-04.pdf github:
3d pose estimation ・A simple yet effective baseline for 3d human pose estimation https://arxiv.org/pdf/1705.03098.pdf
3Dpose の正規化: ・Unsupervised 3D Pose Estimation With Geometric Self-Supervision https://openaccess.thecvf.com/content_CVPR_2019/html/Chen_Unsupervised_3D_Pose_Estimation_With_Geometric_Self-Supervision_CVPR_2019_paper.html