[2019] Character Region Awareness for Text Detection

<検出>・認識・beamsearch

概要

NN ベースの写真中文字検出について
厳密な単語レベルのバウンディングボックスでトレーニングされた以前の方法では、文字が曲がっていたりした時に検出するのに限界がある
新しい写真中文字の検出方法の提案
- 各文字と文字間の親和性の調査
合成画像の特定の文字レベルの注釈と、学習された中間モデルによって取得された実際の画像の推定された文字レベルのグラウンドトゥルースの両方を活用
キャラクター間の親和性を推定するために、ネットワークは親和性のために新しく提案された表現で訓練
任意の向き、湾曲、または変形したテキストなど柔軟に対応

使用データセット

TotalText ... https://github.com/cs-chan/Total-Text-Dataset
CTW-1500 ... https://github.com/Yuliang-Liu/Curve-Text-Detector
MSRATD500 ... http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)
など 6つ

kaggle dataset で利用できるようにした (利用できた)

wordlevel bounding boxes
- curved, deformed, or extremely long など単一の矩形に収まらないやつだと検出難しい
character-level awareness
- 既存のテキストデータセットのほとんどは文字レベルの注釈を提供していない
- 文字レベルのグラウンドトゥルースの取得大変
- - 文字レベルで認識して個別の文字を後でリンクさせる
CRAFT for Character Region Awareness For Text detection
- the character region score and affinity score を生成する NN
- region score ... 画像内の個々の文字の場所を特定する
- affinity score ... それぞれの文字を一つのまとまりにグループ化する
- 文字レベルのアノテーションの不足を補うため,
- we propose a weaklysupervised learning framework that estimates characterlevel ground truths in existing real word-level datasets.

Regression-based text detectors

Various text detectors using box regression adapted from popular object detectors have been proposed.
irregular shapes with various aspect ratios.
TextBoxes [18] ... modified convolutional kernels and anchor boxes to effectively capture various text shapes.
DMPNet [22] ... incorporating quadrilateral sliding windows.
Rotation-Sensitive Regression Detector (RSDD) [19]
- 回転不変性をフルに活用した回転に敏感な回帰検出器
- 畳み込みフィルターをアクティブに回転させる
- However, there is a structural limitation to capturing all possible shapes that exist in the wild when using this approach.

Segmentation-based text detectors

aims to seek text regions at the pixel level.
These approaches that detect texts by estimating word bounding areas, using segmentation as their basis
SSTD [8] ... both the regression and segmentation approaches by using an attention mechanism to enhance text related area via reducing background interference on the feature level
TextSnake [24] ... predicting the text region and the center line together with geometry attributes

End-to-end text detectors

検出と認識を同時に学習, 認識結果で検出スコアを高める
trains the detection and recognition modules simultaneously so as to enhance detection accuracy by leveraging the recognition result
FOTS [21] and EAA [10] ... concatenate popular detection and recognition methods, and train them in an end-to-end manner
Mask TextSpotter [25]
- treat the recognition task as a semantic segmentation problem.
- It is obvious that training with the recognition module helps the text detector be more robust to text-like background clutters.
ほとんどの方法では、単語を単位としてテキストを検出しますが、単語は意味、スペース、色などのさまざまな基準で区切ることができるため、検出する単語の範囲を定義することは簡単ではありません。さらに、単語セグメンテーションの境界を厳密に定義することはできないため、単語セグメント自体に明確な意味的意味はありません。単語注釈のこのあいまいさは、回帰アプローチとセグメンテーションアプローチの両方のグラウンドトゥルースの意味を薄めます。

Character-level text detectors

a character level detector using text block candidates distilled by MSER [27]
prediction map of the characters along with a map of text word regions and linking orientations that require character level annotations
Instead of an explicit character level prediction, Seglink [32] hunts for text grids (partial text segments) and associates these segments with an additional link prediction.
Mask TextSpotter [25] predicts a character-level probability map, it was used for text recognition instead of spotting individual characters.
弱く監視されたフレームワークを使用して文字レベルの検出器をトレーニングするWordSup[12]のアイデアに触発
Wordsupの欠点は、文字表現が長方形のアンカーで形成されるため、カメラの視点を変えることによって引き起こされる文字の遠近法の変形に対して脆弱になること

Our main objective is to precisely localize each individual character in natural images. To this end, we train a deep neural network to predict character regions and the affinity between characters. Since there is no public characterlevel dataset available, the model is trained in a weaklysupervised manner.
The final output has two channels as score maps: the region score and the affinity score.

Training

Ground Truth Label Generation

トレーニング画像ごとに、領域スコアとアフィニティスコアのグラウンドトゥルースラベルを文字レベルの境界ボックスで生成
領域スコアは、指定されたピクセルが文字の中心である確率を表し、親和性スコアは、隣接する文字間のスペースの中心確率を表します
各ピクセルに個別にラベルを付けるバイナリセグメンテーションマップとは異なり、文字中心の確率をガウスヒートマップでエンコードします
このヒートマップ表現は、厳密に制限されていないグラウンドトゥルース領域を処理する際の柔軟性が高いため、ポーズ推定作業[1、29]などの他のアプリケーションで使用されています
ヒートマップ表現を使用して、領域スコアとアフィニティスコアの両方を学習します
画像上の文字境界ボックスは通常、透視投影によって歪むため、次の手順を使用して、領域スコアと親和性スコアの両方のグラウンドトゥルースを概算して生成します
- 2次元の等方性ガウス写像を作成
- ガウス写像領域と各文字ボックスの間の透視変換を計算
- ガウス写像をボックス領域にワープ
アフィニティスコアのグラウンドトゥルースの場合、アフィニティボックスは、図3に示すように、隣接する文字ボックスを使用して定義される
各文字ボックスの反対側のコーナーを結ぶ対角線を描画することにより、2つの三角形を生成できる
隣接する文字ボックスのペアごとに、上下の三角形の中心をボックスのコーナーとして設定することにより、アフィニティボックスが生成できる
提案されたグラウンドトゥルース定義により、モデルは、小さな受容野を使用しているにもかかわらず、大きなテキストインスタンスまたは長いテキストインスタンスを十分に検出できる
一方、ボックス回帰のような以前のアプローチは、そのような場合に大きな受容野を必要とします
文字レベルの検出により、畳み込みフィルターは、テキストインスタンス全体ではなく、文字内と文字間のみに焦点を合わせることができる

Weakly-Supervised Learning

合成データセットとは異なり、データセット内の実際の画像には通常、単語レベルのアノテーションが付いています
各単語レベルの注釈から弱く監視された方法で文字ボックスを生成
単語レベルのアノテーションを含む実際の画像が提供されると、学習された中間モデルは、トリミングされた単語画像の文字領域スコアを予測
中間モデルの予測の信頼性を反映するために、各単語ボックスの信頼性マップの値は、検出された文字の数をグラウンドトゥルース文字の数で割った値に比例して計算されます
the entire procedure for splitting the characters
- the word-level images are cropped from the original image
- the model trained up to date predicts the region score.
- the watershed algorithm [35] is used to split the character regions, which is used to make the character bounding boxes covering regions
- the coordinates of the character boxes are transformed back into the original image coordinates using the inverse transform from the cropping step
領域スコアと親和性スコアの疑似グラウンドトゥルース（pseudoGTs）は、取得した四辺形の文字レベルの境界ボックスを使用して、図3で説明した手順で生成できます。モデルが弱い監視を使用してトレーニングされる場合、不完全な疑似GTを使用してトレーニングする必要があります。
モデルが不正確な領域スコアでトレーニングされている場合、出力が文字領域内でぼやける可能性があります。これを防ぐために、モデルによって生成された各疑似GTの品質を測定します。
幸いなことに、テキスト注釈には非常に強力な手がかりがあります。これは単語の長さです。ほとんどのデータセットでは、単語の文字起こしが提供されており、単語の長さを使用して、pseudoGTの信頼性を評価できます。
トレーニングデータの単語レベルの注釈付きサンプルwの場合、R（w）とl（w）をそれぞれサンプルwのバウンディングボックス領域と単語長とします。文字分割プロセスを通じて、推定文字境界ボックスとそれに対応する文字の長さl c（w）を取得できます。次に、サンプルwの信頼スコアsconf（w）は次のように計算されます。
ここで、S ∗ r（p）とS ∗ a（p）は、それぞれ疑似グラウンドトゥルース領域スコアとアフィニティマップを示し、Sr（p）とSa（p）は、それぞれ予測領域スコアと親和性スコアを示します。合成データでトレーニングする場合、実際のグラウンドトゥルースを取得できるため、Sc（p）は1に設定されます。トレーニングを実行すると、CRAFTモデルは文字をより正確に予測でき、信頼スコアsconf（w）は次のように徐々に増加します。
信頼スコアsconf（w）が0.5未満の場合、モデルのトレーニング時に悪影響を与えるため、推定された文字境界ボックスは無視する必要があります。この場合、個々の文字の幅が一定であると仮定し、単語領域R（w）を文字数l（w）で除算するだけで、文字レベルの予測を計算します。次に、sconf（w）を0.5に設定して、テキストの見えない外観を学習します。

Inference

the final output can be delivered in various shapes, such as word boxes or character boxes, and further polygons
For datasets like ICDAR, the evaluation protocol is word-level intersection-over-union (IoU)
how to make word-level bounding boxes QuadBox from the predicted Sr and Sa through a simple yet effective post-processing step
The post-processing for finding bounding boxes
- the binary map M covering the image is initialized with 0
- M(p) is set to 1 if Sr(p) > τr or Sa(p) > τa, where τr is the region threshold and τa is the affinity threshold
- Connected Component Labeling (CCL) on M is performed
- QuadBoxは、各ラベルに対応する連結成分を囲む最小領域を持つ回転した長方形を見つけることによって取得されます
- OpenCVが提供するconnectedComponentsやminAreaRectなどの関数は、この目的に適用できます
CRAFTの利点は、Non-Maximum Suppression（NMS）などの追加の後処理方法が不要なことです。
CCLで区切られた単語領域の画像ブロブがあるため、単語の境界ボックスは、単一の囲み長方形によって単純に定義されます
文字リンクプロセスはピクセルレベルで実行
- テキストコンポーネント間の関係を明示的に検索することに依存する他のリンクベースの方法[32、12]とは異なります
文字領域全体の周りにポリゴンを生成して、湾曲したテキストを効果的に処理できます

The procedure of polygon generation

スキャン方向に沿った文字領域の極大線を見つける (青色の矢印)
極大線の長さは、最終的なポリゴンの結果が不均一になるのを防ぐために、それらの間の最大長として等しく設定
極大のすべての中心点を結ぶ線は中心線と呼ばれ、黄色で示されています
赤い矢印で表されているように、極大線が中心線に垂直になるように回転して、文字の傾斜角度を反映
極大線の端点は、テキストポリゴンのコントロールポイントの候補
テキスト領域を完全にカバーするために、最も外側に傾斜した2本の極大線を極大中心線に沿って外側に移動し、最終的な制御点（緑色の点）を作成

Experiment

Datasets

ICDAR2013（IC13）は、英語のテキストを含む高解像度画像、トレーニング用229、テスト用233で構成される、焦点を絞ったシーンテキスト検出のためのICDAR2013ロバストリーディングコンペティション中にリリースされました。注釈は、長方形のボックスを使用して単語レベルで表示されます。
ICDAR2015（IC15）は、偶発的なシーンのテキスト検出のためのICDAR 2015ロバストリーディングコンペティションで紹介されました。これは、英語のテキストを含む1000枚のトレーニング画像と500枚のテスト画像で構成されています。注釈は、四辺形のボックスを使用して単語レベルで表示されます。
ICDAR2017（IC17）には、7,200のトレーニング画像、1,800の検証画像、および多言語シーンのテキスト検出用の9言語のテキストを含む9,000のテスト画像が含まれています。 IC15と同様に、IC17のテキスト領域も四辺形の4つの頂点によって注釈が付けられます。
MSRA-TD500（TD500）には、500枚の自然画像が含まれています。これらの画像は300枚のトレーニング画像と200枚のテスト画像に分割され、ポケットカメラを使用して屋内と屋外の両方で収集されます。画像には英語と中国語のスクリプトが含まれています。テキスト領域は、回転した長方形で注釈が付けられます。
TotalText（TotalText）は、最近ICDAR 2017で発表され、1255のトレーニング画像と300のテスト画像が含まれています。特に、ポリゴンと単語レベルの文字起こしで注釈が付けられた湾曲したテキストを提供します。
CTW-1500（CTW）は、1000枚のトレーニング画像と500枚のテスト画像で構成されています。すべての画像には湾曲したテキストインスタンスがあり、14個の頂点を持つポリゴンで注釈が付けられています。

Training strategy

トレーニング手順には2つのステップが含まれます。
最初にSynthTextデータセット[6]を使用してネットワークを50k反復でトレーニングし、次に各ベンチマークデータセットを採用してモデルを微調整します。
ICDAR2015およびICDAR2017データセットの一部の「DONOTCARE」テキスト領域は、sconf（w）を0に設定することにより、トレーニングで無視されます。すべてのトレーニングプロセスでADAM[16]オプティマイザーを使用します。マルチGPUトレーニングの場合、トレーニングGPUと監視GPUが分離され、監視GPUによって生成された疑似GTがメモリに保存されます。
finetune 中は、SynthTextデータセットも1：5の割合で使用され、文字領域が確実に分離されていることを確認します。自然なシーンでテクスチャのようなテキストを除外するために、オンラインハードネガティブマイニング[33]が1：3の比率で適用されます。また、切り抜き、回転、カラーバリエーションなどの基本的なデータ拡張手法が適用されます。弱教師ありトレーニングには、2種類のデータが必要です。単語の画像をトリミングするための四辺形の注釈と、単語の長さを計算するための文字起こし。
これらの条件を満たすデータセットは、IC13、IC15、およびIC17です。
MSRA-TD500、TotalText、CTW-1500などの他のデータセットは要件を満たしていません。
MSRA-TD500は文字起こしを提供しませんが、TotalTextとCTW-1500はポリゴン注釈のみを提供します。
したがって、CRAFTはICDARデータセットでのみトレーニングし、微調整せずに他のデータセットでテストしました。
2つの異なるモデルがICDARデータセットでトレーニングされています。
最初のモデルは、IC15のみを評価するためにIC15でトレーニングされています。
2番目のモデルは、IC13とIC17の両方で一緒にトレーニングされ、他の5つのデータセットを評価するために使用されます。トレーニングに余分な画像は使用されません。
finetune の反復回数は25kに設定されています。

Experimental Results
四辺形タイプのデータセット（ICDAR、およびMSRATD500）すべての実験は、単一の画像解像度で実行されます。
IC13、IC15、IC17、およびMSRA-TD500の画像の長辺は、それぞれ960、2240、2560、および1600にサイズ変更されます。表1に、ICDARおよびMSRA-TD500データセットのさまざまなメソッドのh-meanスコアを示します。
エンドツーエンドの方法と公正に比較するために、元の論文を参照して、検出のみの結果を含めます。すべてのデータセットで最先端のパフォーマンスを実現します。
さらに、CRAFTはIC13データセットで8.6 FPSで実行されます。
これは、シンプルでありながら効果的な後処理のおかげで、比較的高速です。 MSRA-TD500の場合、ボックス内の単語間のスペースを含め、注釈が行レベルで提供されます。
したがって、単語ボックスを組み合わせるための後処理ステップが適用されます。
1つのボックスの右側と別のボックスの左側が十分に近い場合、2つのボックスは一緒に結合されます。
TD500トレーニングセットでは微調整は実行されませんが、表1に示すように、CRAFTは他のすべての方法よりも優れています。

Discussions

分散をスケーリングするための堅牢性テキストのサイズは非常に多様ですが、すべてのデータセットに対してシングルスケールの実験のみを実行しました。これは、スケール分散の問題を処理するためにマルチスケールテストに依存する他の大部分の方法とは異なります。この利点は、テキスト全体ではなく、個々の文字をローカライズするメソッドの特性に由来します。大きな画像の1文字をカバーするには、比較的小さな受容野で十分です。これにより、CRAFTはスケールバリアントテキストの検出に堅牢になります。

多言語の問題

IC17データセットには、合成テキストデータセットに含まれていないベンガル文字とアラビア文字を含む。
ベンガル語とアラビア語の文字を区別できない。
ラテン語、韓国語、中国語、日本語は区別可能。東アジアの文字の場合、一定の幅で簡単に分離できるため、弱く監視することでモデルを高性能にトレーニングできます。

エンドツーエンド方式との比較私たちの方法は、検出のためだけにグラウンドトゥルースボックスを使用してトレーニングされていますが、表に示すように、他のエンドツーエンドの方法と同等です。 3.失敗事例の分析から、特にグラウンドトゥルースの単語が視覚的な手がかりではなく意味論によって分離されている場合、モデルが認識結果の恩恵を受けることを期待しています。

汎化性能

私たちの方法は、追加の微調整なしで、3つの異なるデータセットで最先端のパフォーマンスを達成。
モデルが特定のデータセットに過剰適合するのではなく、テキストの一般的な特性をキャプチャできることを示す。

Conclusion

文字レベルの注釈が付けられていない場合でも個々の文字を検出できるCRAFTと呼ばれる新しいテキスト検出器を提案。
提案された方法は、文字領域スコアと文字親和性スコアを提供し、これらが一緒になって、ボトムアップ方式でさまざまなテキスト形状を完全にカバーします。
文字レベルの注釈が付けられた実際のデータセットはまれであるため、暫定モデルから疑似グラウンドの真理を生成する、弱く監視された学習方法を提案。
CRAFTは、ほとんどの公開データセットで最新のパフォーマンスを示し、微調整せずにこれらのパフォーマンスを示すことで一般化能力を示します。
今後の作業として、認識モデルを使用してモデルをエンドツーエンドでトレーニングし、CRAFTのパフォーマンス、堅牢性、および一般化可能性が、より一般的に適用できるより優れたシーンテキストスポッティングシステムに変換されるかどうかを確認したいと考えています。

LinkRefiner for CTW-1500 dataset

テキストの文字起こしなしでポリゴンのみの注釈を提供。
さらに、CTW-1500の注釈は行レベルで提供され、スペースを分離の手がかりとは見なしません。
これは、親和性の仮定、つまり、間にスペースがある文字の親和性のスコアがゼロであるという仮定からはほど遠いものです。
検出された文字から単一の長いポリゴンを取得するために、LinkRefinerと呼ばれるリンクリファインメント用の浅いネットワークを採用。
LinkRefinerのアーキテクチャを図9に示します。
LinkRefinerの入力は、リージョンスコア、アフィニティスコア、およびネットワークからの中間特徴マップの連結であり、元のCRAFTモデルのStage4の出力。
[2]のAtrousSpatialPyramid Pooling（ASPP）は、離れた文字と単語を同じテキスト行に結合するための大きな受容野を確保するために採用。
LinkRefinerのグラウンドトゥルースの場合、[9]で使用されているテキスト線の生成と同様に、注釈付きポリゴンのペアのコントロールポイントの中心間に線が引かれます。
各線の幅は、ペアのコントロールポイント間の距離に比例します。 LinkRefinerのグラウンドトゥルースの生成を図10に示します。モデルの出力はリンクスコアと呼ばれます。
トレーニングでは、CRAFTをフリーズしながら、LinkRefinerのみがCTW-1500トレーニングデータセットでトレーニングされます。
トレーニング後、モデルによって生成された出力が得られます。
これは、領域スコア、親和性スコア、およびリンクスコアです。
ここでは、元のアフィニティスコアの代わりにリンクスコアが使用され、テキストポリゴンはTotalTextで行われるのと同じプロセスで完全に取得されます。
CRAFTモデルは個々の文字をローカライズし、LinkRefinerモデルは、CTW1500の評価に必要な文字とスペースで区切られた単語を組み合わせます。
CTW-1500データセットの結果を図11に示します。提案された方法では、長く湾曲したテキストを含む非常に困難な画像サンプルが正常に検出されます。
さらに、ポリゴン表現を使用すると、湾曲した画像を直線のテキスト画像に修正できます。これも図11に示されています。この修正機能は、認識タスクにさらに役立つと考えられます。

osuossu8 / paper-reading