보통 문자인식에서의 문제는 Noise가 많다는 것이다. 이런한 개념을 이논문에서는 nuisance factors라고 부름
nuisance factors such as font, lighting, shadow, border, background, image noise, geometric deformation, and compression artifacts.
이러한 점을 해결하기 위해서, 입력 이미지(word단위의 natural scene에서 crop한 이미지)를 Clean 이미지 공간으로 Mapping하여, 이러한 nuisance factors를 제거함으로써, 인식률을 높이고자 하는 연구.
개인적으론 오 신기하게 GAN의 개념을 문자인식에 적용한 첫번째 논문이 아닌가한다.
전체 구조
Encoder & Text Decoder
위의 부분을 의미
이부분은 CRNN 연구가 base다.
f의 의미는 CRNN에서 보면 다음을 의미하는것같다. (사실상 구조상 여기밖에 없는듯)
CRNN도 처음 나왔을때 좀 특이한 구조라생각, CNN+RNN 의 결합된 형태이으로...인식률도 좋았구..아마도 word단위의 인식에서는 모두 base로 하는 논문이지 않을까 한다.
loss
Feature Matching
CRNN과정에서, CNN feature f간의 mapping(위의 빨간색) 즉, (natural scene crop) input image x와 clean input x간의 f 를 의미 > 그래서, 두 이미지를(의미적으로 같으니까..) 같은 공간으로 mapping (embedding한다라고 해도 무방할듯으로 보임)
Image Generator
위의 주황색 사각형
이미지 레벨(generator)간의 loss, 즉 clean input 이미지와 generator된 clean 이미지간의 loss
Adversarial discriminators
discriminators 위의 두 loss와 쌍을 이루는레 feature 레벨과 image 레벨에서의 discriminator를 주면된다. 이는 GAN과 동일
total loss
그래서 총 loss는
network 구조
실험
여기서는 SOTA성능이 나왔지만, 이와 비슷하게 나온 논문들(참조)에서 보인, STN기반 Rectification 연구들이 조금 더 좋은 성능를 보였다.
http://openaccess.thecvf.com/content_ECCV_2018/html/Yang_Liu_Synthetically_Supervised_Feature_ECCV_2018_paper.html