MANGO: A Mask Attention Guided One-Stage Scene Text Spotter

Information

Authors: Liang Qiao, Ying Chen+
Organization: Hikvision Research Institute
Paper: https://arxiv.org/abs/2012.04350
Code: https://github.com/hikopensource/davar-lab-ocr
Conference/Journal: AAAI2021

Summary

サマリ図表

どんな論文か？

Two-stage(detect & recognize)のText Spotterではdetectionの精度がrecognitionのlimitationとなるため、本論文ではOne-StageのText Spotterを提案する。提案手法はInstance Mask Attention(IMA), Character Mask Attention(CMA)モジュールを有することで、画像からCharacter-levelのfeature sequenceを得ることができる。これをRecognizerの基本パターン(RNN + Linear)に通して文字系列をE2Eに推定可能。また、Centerline segmentationをsub taskとして解いておき、テキストインスタンスの区別のために利用する。

新規性

2種類のMask推定を解したE2E One-stage Text Spotterの提案
Centerline segmentationを元にした、character-weighted votingによるinference方法
- 1つのtext instanceに対してinstance maskが複数でるため、それらの結果をrecognitionのscoreで重み付け平均し最終出力を決定する

結果

E2EのText/Word spottingでSOTA
VisualizationではChar-levelでの検出もできている

その他（なぜ通ったか？など）

pre-trainingに必要なsupervisionはCenteline segmentation, instance mask, character mask, recognition(text sequence)なので結構重い。SynthTextを使用。
fine-tuning stageではinstance levelのtext, polygon annotationが必要。Centerline segとrecognitionのlossのみを考慮するようである
bbox annotationのみよりはpolygonの方が好ましい（Table5）
project page: https://davar-lab.github.io/publication/aaai2021_mango.html
DAVAR-Lab：https://davar-lab.github.io/publication.html

AtsukiOsanai / cv_survey

MANGO: A Mask Attention Guided One-Stage Scene Text Spotter #98