issues
search
chullhwan-song
/
Reading-Paper
152
stars
27
forks
source link
Scene Text Detection with Supervised Pyramid Context Network
#75
Open
chullhwan-song
opened
5 years ago
chullhwan-song
commented
5 years ago
https://arxiv.org/abs/1811.08605
chullhwan-song
commented
5 years ago
Abstract
기존의 SOTA 알고리즘도 Natural Scene (=real-world environments)에서의 text detection은 여전히 문제를 안고 있음.
이 연구가
제안한 연구는
Mask R-CNN
에 영감을 얻음.
Feature Pyramid Network(FPN)제안
instance segmentation -> Mask R-CNN
정리하면, text detection을 위해
supervised pyramid context network (SPCNET)
제안.
outperforms
내 생각엔 기본적으로 FCN based다.
Contribution
Mask R-CNN
를 Text detection에 적용하기엔 문제가 있다.
Lack of context information clues - context 정보 필요 - 예를 들어, 그릇는 테이블 위에 많이 존재한다.
개인적으론 text가 특정 주위 상황에 나타나는 pattern이 매우 다양하지 않을까... 라이센스, 흰바탕에 글씨등이 있지만, 실제 우리 주위에 텍스트는 너무 넘친다.
Inaccurate classification score - 기울어진 text 의 문제( : 이는 낮은 score가 발생.)
그래서, 이 연구는 contribution
fp를 막기 위해 Text Context module 와 Re-Score mechanism 제안
수평/회전/커브형태를 가진 다양한 shape을 가진 text 감지 방법 제안
SOTA 성능
Proposed method
Mask R-CNN
based - 기본적으로 이 틀을 유지.
GT 구성
Text Context Module
FP를 제거하기 위해
이를 위해 2개의 모듈로 구성 = Pyramid Attention Module (PAM) + Pyramid Fusion Module (PFM)
Pyramid Attention Module
이 모듈은 "Single Shot Text Detector with Regional Attention" 의 연구에서 영감을 얻음.
SSD기반의 text detection 알고리즘 -
SSD는 기본적으로 backbone net의 여러 layer의 각 feature map를 이용하여 detection함.
이 연구에서 언급한 Attention 모듈을 참고함.
FPN의 stage 2~5사이의 feature map을 이용하고 이는 각각의 layer에서 saliency map을 생성 - text/none에 대한 pixel 레벨정보를 획득.
text context model은 이런 saliency map과 이를 fusion한 것을 일컬음.
이때 3x3, 1x1 conv을 이용한 조합.
output의 채널은 2 - text/non-text map
stage 2에서, 512×512의 input을 받고 feature map(S2)은 128×128×256이고, saliency map는 다음과 같은 방법으로 생성.
Text Context module은 text/non-text 의 2 채널의 saliency map 생성하고 이후에, channel-wise softmax 단계를 걷치고 최종적으로 "text saliency map"를 획득.
이 전체 과정은 Fig.2의 d)를 보면 이해하기가 쉽다.
Mask R-CNN의 feature map, 즉,입력값의 역할을 하는듯하다.
Pyramid Fusion Module
Fig.2의 b & d
feature map(GTF) of global text segmentation. - Fig.2의 d에서 보면 쉬움.
"+" : element-wise addition
Re-Score Mechanism
Mask R-CNN inference 과정에서, bounding boxe들에 대한 분류확률이 높은순으로 sorting - Top K sorting (K=1000)
이후에, standard NMS 수행
Top-M(M=300)의 경우 retain (highest classification confidence)
여기서 기울어진 text의 경우의 background의 정보가 많이 존재 그래서 FP 문제 발생 - score가 낮아짐.
생각해보면 알수 있는데.. 수평모양 text보다 45도 기울어진 text의 경우 사각형을 그리면 아래와 같이 녹색 사각형을 보면, background 영역이 수평모양의 text보다 훨씬 많다.
Global Text Segmentation 정보를 이용하여 background부분에 대한 문제 제거 즉, text instance 부분만..
이는 이전의 과정에서 획득.
classification score(CS) 와 instance score(IS)을 다음과 같이 계산.
P_i is the set of the pixels’ value of i-th text instance on text segmentation map.
Loss Function Design
다음을 제외한 loss는 Mask R-CNN의 loss
softmax loss
p는 output prediction of the network
실험
https://arxiv.org/abs/1811.08605