osuossu8 / paper-reading

6 stars 0 forks source link

[2019] Character Region Awareness for Text Detection #25

Open osuossu8 opened 2 years ago

osuossu8 commented 2 years ago

https://arxiv.org/pdf/1904.01941.pdf

osuossu8 commented 2 years ago

<検出>・認識・beamsearch

概要

使用データセット

kaggle dataset で利用できるようにした (利用できた)

Screen Shot 2022-03-29 at 1 41 44 Screen Shot 2022-03-29 at 1 42 03
osuossu8 commented 2 years ago
osuossu8 commented 2 years ago

関連研究

Regression-based text detectors

Segmentation-based text detectors

End-to-end text detectors

Character-level text detectors

osuossu8 commented 2 years ago
osuossu8 commented 2 years ago

Training

Ground Truth Label Generation

Screen Shot 2022-03-26 at 21 36 02
osuossu8 commented 2 years ago

Weakly-Supervised Learning

Screen Shot 2022-03-26 at 21 37 41 Screen Shot 2022-03-26 at 22 10 06 Screen Shot 2022-03-26 at 22 10 18
osuossu8 commented 2 years ago

Inference

The procedure of polygon generation

Screen Shot 2022-03-29 at 1 39 34
osuossu8 commented 2 years ago

Experiment

Datasets

Training strategy

osuossu8 commented 2 years ago

Discussions

分散をスケーリングするための堅牢性 テキストのサイズは非常に多様ですが、すべてのデータセットに対してシングルスケールの実験のみを実行しました。これは、スケール分散の問題を処理するためにマルチスケールテストに依存する他の大部分の方法とは異なります。この利点は、テキスト全体ではなく、個々の文字をローカライズするメソッドの特性に由来します。大きな画像の1文字をカバーするには、比較的小さな受容野で十分です。これにより、CRAFTはスケールバリアントテキストの検出に堅牢になります。

多言語の問題

エンドツーエンド方式との比較 私たちの方法は、検出のためだけにグラウンドトゥルースボックスを使用してトレーニングされていますが、表に示すように、他のエンドツーエンドの方法と同等です。 3.失敗事例の分析から、特にグラウンドトゥルースの単語が視覚的な手がかりではなく意味論によって分離されている場合、モデルが認識結果の恩恵を受けることを期待しています。

汎化性能

Screen Shot 2022-03-29 at 3 04 58
osuossu8 commented 2 years ago

Conclusion

osuossu8 commented 2 years ago

LinkRefiner for CTW-1500 dataset

Screen Shot 2022-03-29 at 3 13 17 Screen Shot 2022-03-29 at 3 13 49
osuossu8 commented 2 years ago

[done]