Enlarging RoI Resolution (ERR)
Mask-RCNN では、mask branch のネットワーク内で 14 x 14 の解像度スケールでの RoI を使用している。
しかしながら、人物パースタスクでは、人物の領域が特徴マップの大きな割合を占めているので、後段のネットワークでこのような小さな RoI を使用すると、人物領域の局所的な情報が失われ、これが品質劣化の原因となる。
そのため Parsing R-CNN の Parsing branch では、32 x 32 の解像度スケールでの RoI を使用する Enlarging RoI Resolution (ERR) を採用している。
この ERR により、ブランチの計算コストは増加するが、人物パース画像の品質は大幅に向上する。
この ERR に伴う学習時間増加とメモリオーバーヘッドに対処するために、バッチサイズを固定値(例:32)に減らしている。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
proposals separation sampling (PSS) strategy
Enlarging RoI Resolution (ERR) Mask-RCNN では、mask branch のネットワーク内で 14 x 14 の解像度スケールでの RoI を使用している。 しかしながら、人物パースタスクでは、人物の領域が特徴マップの大きな割合を占めているので、後段のネットワークでこのような小さな RoI を使用すると、人物領域の局所的な情報が失われ、これが品質劣化の原因となる。
そのため Parsing R-CNN の Parsing branch では、32 x 32 の解像度スケールでの RoI を使用する Enlarging RoI Resolution (ERR) を採用している。 この ERR により、ブランチの計算コストは増加するが、人物パース画像の品質は大幅に向上する。 この ERR に伴う学習時間増加とメモリオーバーヘッドに対処するために、バッチサイズを固定値(例:32)に減らしている。
Geometric and Context Encoding (GCE) module
4. どうやって有効だと検証した?
本手法でのインスタンスレベルの人物パース画像の定性品質
既存のモデルとの定量比較
各提案手法(PSS, EER, GCE)の Ablation study
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献