Fast R-CNN - Githubissues

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1504.08083
公開日時：2015/04/30
組織 : Microsoft Research
被引用数（記事作成時点）：10132 件
実装コード（Caffle）: https://github.com/rbgirshick/fast-rcnn
Publication :

1. どんなもの？

R-CNN の処理速度を大幅に高速化し、物体検出精度も高めた深層畳み込みベースの物体検出モデル。現在多くの物体検出モデルやセグメンテーションモデルのベースラインとして採用されている。

2. 先行研究と比べてどこがすごいの？

既存の深層畳み込みベースの物体検出モデルである R-CNN は、（当時としては）優れた物体検出精度を実現したが、学習と推定速度ともに非常に低速であるという問題があった。本手法では、R-CNN を大幅に高速化し（学習時間：約１０倍以上、推定時間：約10０倍）、更に物体検出精度も高めた Fast R-CNN を提案している。
PASCAL VOC 2012 での物体検出で、当時のSOTAを達成

3. 技術や手法の"キモ"はどこにある？

【R-CNN】前提知識 R-CNN では、物体検出を以下の３つのモジュールに分けて行っている。 a. 物体候補領域検出するモジュール (Region Proposal) b. 得られた物体候補領域の特徴抽出を行うモジュール（特徴抽出は CNNで行う） c. 得られた物体候補領域から分類を行うモジュール(分類はSVMで行う)

物体候補領域検出モジュールで検出された候補領域は複数存在するが、R-CNN はこれら複数候補領域”全て”に対して、CNN で特徴抽出し、SVMで分類を行っている。そのため、非常に低速であるという問題が存在する。 Fast R-CNN では、物体候補領域ではなく元の入力画像に対して CNN で特徴抽出することで、複数回 CNN を通さなくてよくして、処理速度を大幅に高速化するというのが基本的なコンセプトである
アーキテクチャの全体像
上図は、Fast R-CNN のアーキテクチャ全体像を示した図である。このアーキテクチャでの処理は、以下のような流れになる。 1. 入力画像全体を ImageNet で事前学習済み CNN モデル（VGG等）に入力し、入力画像全体に対しての特徴マップを生成する。 1. RoI領域（上図赤枠）を上記 ImageNet で事前学習済み CNN に入力し、上記入力画像全体に対しての特徴マップ上へ射影する ※ RoI領域は、CNN ではなくて、Selective Search（SS）で行っている。 ※ 後発の Faster-RCNN では、この RoI 領域の検出も CNN で行うことで、処理速度と精度を高めている。 1. 特徴マップ上へ射影された RoI 領域を、RoI Pooling layer へ入力し、固定長の特徴ベクトルを抽出 1. 抽出した特徴ベクトルを全畳み込み層（FC層）へ入力し、softmax 出力と BBOX のオフセット値出力に変換 ※ sofmax 出力は、物体カテゴリ数 K+1 個のベクトルで、k 番目の要素が物体カテゴリ k である確率を表す ※ BBOX のオフセット値出力は、物体カテゴリ k の座標位置 (x,y) と長方形サイズ (w,h) のペアデータこれらのネットワーク全体は、ImageNet で事前学習済み CNN モデル（VGG等）を fine-tuning したネットワークで構成され、end2end に学習される。（但し、RoI 領域検出部分は除く）
RoI Pooling layer
RoI Pooling layer では、上図のように、ます入力画像全体の特徴マップ上に射影された RoI 領域を、４つのグリッドに分割する。その後、それぞれのグリッドに対して max pooling 演算を実施し、固定解像度（例 : 7x7）のより小さな特徴マップに変換する。
ImageNet で事前学習済み CNN モデルの fine-tuning 先に述べたように、このネットワーク全体は、ImageNet で事前学習済み CNN モデル（VGG 等）を fine-tuning したネットワークで構成されている。具体的な fine-tuning 内容は、以下のようになる。
1. RoI Pooling layer での fine-tuning RoI Pooling layer での pooling 層は、ImageNet で事前学習済み CNN モデルの最後の層での pooling 層を利用している。但し、入出力サイズは互換性を持たせるため fine-tuning されている。
2. softmax 出力層と BBOX のオフセット値出力層事前学習済みCNNモデルの出力層を、softmax 出力層と BBOX のオフセット値出力層に fine-tuning
3. ネットワークの入力画像のリストとその画像の RoI リストを入力出来るように、事前学習済みCNNモデルの入力層を fine-tuning
損失関数（Multi-task loss）本手法でのネットワークは、以下の式で定義される Multi-task loss によって、end2end に学習される。（但し、RoI 領域検出部分は除く）
SVD（特異値分解）によるFC層の高速化 Fast R-CNN では、CNN による畳み込み処理の回数を減らして高速化した結果、全体の処理時間に対する全畳み込み層（FC層）の割合が大きくなってしまい、この部分が処理時間の面でボトルネックになるようになった。そのため、このFC層の高速化も行っている。具体的には、以下の式のように、全畳み込み層での行列計算をSVD（特異値分解）で近似するようにする。

4. どうやって有効だと検証した？

既存の物体検出モデルとの物体検出精度の定量比較検証
Pascal VOC データセットにおいて、既存の物体検出モデルと比較して、ほとんど全ての物体検出精度スコアで上回っている。
既存の物体検出モデルとの処理速度の定量比較検証
R-CNN, SPPNet と比較して、大幅に高速化している。（学習時間：約１０倍以上、推定時間：約10０倍）

Yagami360 / machine-learning-papers-survey

Fast R-CNN #75

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献