Open osuossu8 opened 2 years ago
<検出>・認識・beamsearch
概要
使用データセット
kaggle dataset で利用できるようにした (利用できた)
wordlevel bounding boxes
character-level awareness
CRAFT for Character Region Awareness For Text detection
関連研究
検出と認識を同時に学習, 認識結果で検出スコアを高める
trains the detection and recognition modules simultaneously so as to enhance detection accuracy by leveraging the recognition result
FOTS [21] and EAA [10] ... concatenate popular detection and recognition methods, and train them in an end-to-end manner
Mask TextSpotter [25]
ほとんどの方法では、単語を単位としてテキストを検出しますが、単語は意味、スペース、色などのさまざまな基準で区切ることができるため、検出する単語の範囲を定義することは簡単ではありません。 さらに、単語セグメンテーションの境界を厳密に定義することはできないため、単語セグメント自体に明確な意味的意味はありません。 単語注釈のこのあいまいさは、回帰アプローチとセグメンテーションアプローチの両方のグラウンドトゥルースの意味を薄めます。
Our main objective is to precisely localize each individual character in natural images. To this end, we train a deep neural network to predict character regions and the affinity between characters. Since there is no public characterlevel dataset available, the model is trained in a weaklysupervised manner.
The final output has two channels as score maps: the region score and the affinity score.
合成データセットとは異なり、データセット内の実際の画像には通常、単語レベルのアノテーションが付いています
各単語レベルの注釈から弱く監視された方法で文字ボックスを生成
単語レベルのアノテーションを含む実際の画像が提供されると、学習された中間モデルは、トリミングされた単語画像の文字領域スコアを予測
中間モデルの予測の信頼性を反映するために、各単語ボックスの信頼性マップの値は、検出された文字の数をグラウンドトゥルース文字の数で割った値に比例して計算されます
the entire procedure for splitting the characters
領域スコアと親和性スコアの疑似グラウンドトゥルース(pseudoGTs)は、取得した四辺形の文字レベルの境界ボックスを使用して、図3で説明した手順で生成できます。モデルが弱い監視を使用してトレーニングされる場合、不完全な疑似GTを使用してトレーニングする必要があります。
モデルが不正確な領域スコアでトレーニングされている場合、出力が文字領域内でぼやける可能性があります。これを防ぐために、モデルによって生成された各疑似GTの品質を測定します。
幸いなことに、テキスト注釈には非常に強力な手がかりがあります。これは単語の長さです。ほとんどのデータセットでは、単語の文字起こしが提供されており、単語の長さを使用して、pseudoGTの信頼性を評価できます。
トレーニングデータの単語レベルの注釈付きサンプルwの場合、R(w)とl(w)をそれぞれサンプルwのバウンディングボックス領域と単語長とします。文字分割プロセスを通じて、推定文字境界ボックスとそれに対応する文字の長さl c(w)を取得できます。次に、サンプルwの信頼スコアsconf(w)は次のように計算されます。
ここで、S ∗ r(p)とS ∗ a(p)は、それぞれ疑似グラウンドトゥルース領域スコアとアフィニティマップを示し、Sr(p)とSa(p)は、それぞれ予測領域スコアと親和性スコアを示します。合成データでトレーニングする場合、実際のグラウンドトゥルースを取得できるため、Sc(p)は1に設定されます。トレーニングを実行すると、CRAFTモデルは文字をより正確に予測でき、信頼スコアsconf(w)は次のように徐々に増加します。
信頼スコアsconf(w)が0.5未満の場合、モデルのトレーニング時に悪影響を与えるため、推定された文字境界ボックスは無視する必要があります。この場合、個々の文字の幅が一定であると仮定し、単語領域R(w)を文字数l(w)で除算するだけで、文字レベルの予測を計算します。次に、sconf(w)を0.5に設定して、テキストの見えない外観を学習します。
the final output can be delivered in various shapes, such as word boxes or character boxes, and further polygons
For datasets like ICDAR, the evaluation protocol is word-level intersection-over-union (IoU)
how to make word-level bounding boxes QuadBox from the predicted Sr and Sa through a simple yet effective post-processing step
The post-processing for finding bounding boxes
CRAFTの利点は、Non-Maximum Suppression(NMS)などの追加の後処理方法が不要なことです。
CCLで区切られた単語領域の画像ブロブがあるため、単語の境界ボックスは、単一の囲み長方形によって単純に定義されます
文字リンクプロセスはピクセルレベルで実行
文字領域全体の周りにポリゴンを生成して、湾曲したテキストを効果的に処理できます
Datasets
Training strategy
トレーニング手順には2つのステップが含まれます。
最初にSynthTextデータセット[6]を使用してネットワークを50k反復でトレーニングし、次に各ベンチマークデータセットを採用してモデルを微調整します。
ICDAR2015およびICDAR2017データセットの一部の「DONOTCARE」テキスト領域は、sconf(w)を0に設定することにより、トレーニングで無視されます。すべてのトレーニングプロセスでADAM[16]オプティマイザーを使用します。マルチGPUトレーニングの場合、トレーニングGPUと監視GPUが分離され、監視GPUによって生成された疑似GTがメモリに保存されます。
finetune 中は、SynthTextデータセットも1:5の割合で使用され、文字領域が確実に分離されていることを確認します。自然なシーンでテクスチャのようなテキストを除外するために、オンラインハードネガティブマイニング[33]が1:3の比率で適用されます。また、切り抜き、回転、カラーバリエーションなどの基本的なデータ拡張手法が適用されます。弱教師ありトレーニングには、2種類のデータが必要です。単語の画像をトリミングするための四辺形の注釈と、単語の長さを計算するための文字起こし。
これらの条件を満たすデータセットは、IC13、IC15、およびIC17です。
MSRA-TD500、TotalText、CTW-1500などの他のデータセットは要件を満たしていません。
MSRA-TD500は文字起こしを提供しませんが、TotalTextとCTW-1500はポリゴン注釈のみを提供します。
したがって、CRAFTはICDARデータセットでのみトレーニングし、微調整せずに他のデータセットでテストしました。
2つの異なるモデルがICDARデータセットでトレーニングされています。
最初のモデルは、IC15のみを評価するためにIC15でトレーニングされています。
2番目のモデルは、IC13とIC17の両方で一緒にトレーニングされ、他の5つのデータセットを評価するために使用されます。トレーニングに余分な画像は使用されません。
finetune の反復回数は25kに設定されています。
Experimental Results
四辺形タイプのデータセット(ICDAR、およびMSRATD500)すべての実験は、単一の画像解像度で実行されます。
IC13、IC15、IC17、およびMSRA-TD500の画像の長辺は、それぞれ960、2240、2560、および1600にサイズ変更されます。表1に、ICDARおよびMSRA-TD500データセットのさまざまなメソッドのh-meanスコアを示します。
エンドツーエンドの方法と公正に比較するために、元の論文を参照して、検出のみの結果を含めます。すべてのデータセットで最先端のパフォーマンスを実現します。
さらに、CRAFTはIC13データセットで8.6 FPSで実行されます。
これは、シンプルでありながら効果的な後処理のおかげで、比較的高速です。 MSRA-TD500の場合、ボックス内の単語間のスペースを含め、注釈が行レベルで提供されます。
したがって、単語ボックスを組み合わせるための後処理ステップが適用されます。
1つのボックスの右側と別のボックスの左側が十分に近い場合、2つのボックスは一緒に結合されます。
TD500トレーニングセットでは微調整は実行されませんが、表1に示すように、CRAFTは他のすべての方法よりも優れています。
Discussions
分散をスケーリングするための堅牢性 テキストのサイズは非常に多様ですが、すべてのデータセットに対してシングルスケールの実験のみを実行しました。これは、スケール分散の問題を処理するためにマルチスケールテストに依存する他の大部分の方法とは異なります。この利点は、テキスト全体ではなく、個々の文字をローカライズするメソッドの特性に由来します。大きな画像の1文字をカバーするには、比較的小さな受容野で十分です。これにより、CRAFTはスケールバリアントテキストの検出に堅牢になります。
多言語の問題
エンドツーエンド方式との比較 私たちの方法は、検出のためだけにグラウンドトゥルースボックスを使用してトレーニングされていますが、表に示すように、他のエンドツーエンドの方法と同等です。 3.失敗事例の分析から、特にグラウンドトゥルースの単語が視覚的な手がかりではなく意味論によって分離されている場合、モデルが認識結果の恩恵を受けることを期待しています。
汎化性能
Conclusion
LinkRefiner for CTW-1500 dataset
[done]
https://arxiv.org/pdf/1904.01941.pdf