Journal/Conference: CVPR2020
Title: UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World
Authors: Shangbang Long, Cong Yao
URL: https://arxiv.org/abs/2003.10608
新規性
・二次元画像でなく3次元シーンにテキストを埋め込み
・multilingual scene textデータセットを構築
Abst
合成データ:Scene Text 認識器の訓練
→3Dグラフィックエンジンを用いてテキストをリアルな画像に埋め込む合成手法を提案:UnrealText
レンダリングとテキストから適切なテキスト領域検出の提案
データセットの作成
1 Introduction
シーンテキストタスクにおいて合成データは重要 (詳細なアノテーションを取得可能)
現実のデータセットと合成データセットの両方でシーンからのテキスト抽出でのタスクでの精度改善の程度は大きくない
Hui Li, Peng Wang, Chunhua Shen, and Guyu Zhang. Show,attend and read: A simple and strong baseline for irregulartext recognition.AAAI, 2019
Shangbang Long, Yushuo Guan, Bingxuan Wang, KaiguiBian, and Cong Yao. Alchemy: Techniques for rectification based irregular scene text recognition.arXiv preprint arXiv:1908.11834, 2019.
4 Experiments on Scene text detection
4.1
EAST (Ref 53)のモデルを使用
Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, ShuchangZhou, Weiran He, and Jiajun Liang. EAST: An efficient andaccurate scene text detector. InProc. CVPR, 2017
https://github.com/argman/EAST/
Scene text detectionのデータセットで検証
5 Experiments on Scene Text Recognition
ASTERのモデルを採用
aoguang Shi, Mingkun Yang, XingGang Wang, PengyuanLyu, Xiang Bai, and Cong Yao. Aster: An attentional scenetext recognizer with flexible rectification.IEEE transactionson pattern analysis and machine intelligence, 31(11):855–868, 2018.
6 Future work
・提案エンジンのパラメータは人間が決めたものなので探索する必要がある
・そもそも画質的に読みにくいテキストは始めから外しておいた方が検出精度がよくなる可能性
・多言語でのフォントの問題についての探索の可能性
0. 論文
Journal/Conference: CVPR2020 Title: UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World Authors: Shangbang Long, Cong Yao URL: https://arxiv.org/abs/2003.10608
1. どんなもの?
シーンテキスト生成において,既存の2次元画像でなく3次元シーンにテキストを埋め込み仮想データセットを生成する手法を提案し,多言語シーンテキストデータセットを作成 3次元シーンにテキストを埋め込む仮想データセットの作成方法
そのデータセットを用いることで,テキスト検出の性能が向上
2. 先行研究と比べてどこがすごい?
3次元シーンにテキストを埋め込みシーンテキストデータセットを構築した点
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
・多言語によって存在するフォントや存在しないフォントなどがあり,フォントの観点からの分析もできそう ・自動生成のためのパラメータはまだ人手で決めているのでそこを自動化する必要はあるらしい
6.次に読むべき論文は?
メモ
code: https://jyouhou.github.io/UnrealText/ http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/187/
新規性 ・二次元画像でなく3次元シーンにテキストを埋め込み ・multilingual scene textデータセットを構築
Abst 合成データ:Scene Text 認識器の訓練 →3Dグラフィックエンジンを用いてテキストをリアルな画像に埋め込む合成手法を提案:UnrealText レンダリングとテキストから適切なテキスト領域検出の提案 データセットの作成
1 Introduction シーンテキストタスクにおいて合成データは重要 (詳細なアノテーションを取得可能) 現実のデータセットと合成データセットの両方でシーンからのテキスト抽出でのタスクでの精度改善の程度は大きくない Hui Li, Peng Wang, Chunhua Shen, and Guyu Zhang. Show,attend and read: A simple and strong baseline for irregulartext recognition.AAAI, 2019 Shangbang Long, Yushuo Guan, Bingxuan Wang, KaiguiBian, and Cong Yao. Alchemy: Techniques for rectification based irregular scene text recognition.arXiv preprint arXiv:1908.11834, 2019.
シーン埋め込みの一般的なパラダイム ・意味的セグメンテーションと深さ推定で背景画像の分析? ・テキストを埋め込むための1を抽出し ・背景画像にテキスト画像をブレンドし,推定
3D画像にテキストを合成するエンジンを提案 利点 ・文字とシーンが一体になって描写:照明などの視覚効果を得る ・normal depth, object meshesなどの情報を把握してテキスト領域提案
3つのコンポーネント ・仮想シーンを探索し多様な背景を得るview finding algorithmの生成 ・照明条件を変更し,ランダム化モジュールを生成 ・3次元メッシュを調べることでテキストの最適な位置を発見する
貢献 ・3次元画像をレンダリングし,テキストを合成する画像合成エンジンの提案 ・テキスト検出や認識器の性能を向上させる ・多言語シーンテキストの生成 ・十分なアノテーションを行ったデータセットの作成
2 Related work 2.1 Synthetic Images 単一単語 + シーン生成:45, 10 意味的な一貫性を保持するための画像を生成しテキスト検出のtraining:VISD (50)
GANなどによる学習ベースの手法による人工画像生成の研究 (48, 17, 12) Ref 51: 大量のラベル付きデータ シーン理解やセグメンテーションなどの部分で3Dエンジンを用いて画像を合成する手法が普及 (28, 24, 33, 35,37, 43, 29などなど) →これらの手法は静的な背景画像の上に3Dオブジェクトをレンダリングし,配置などの単純なパターンやすでに存在する3Dシーンを利用するなど 本研究は3Dシーンを能動的に取り扱い,シーンテキスト画像を生成
2.2 Scene Text Detection and Recognition シーンテキスト検出には2つの分岐 ・一般的な物体検出器から領域を取り出すネットワークの考え方を結合したトップダウン方式 (19, 53,11, 52, 47) ・ 局所的なセグメントと幾何学的属性を予測しボトムアップ方式 (38, 22, 2, 40)
多くのシーンテキスト認識モデルはCNN + LSTMやtransformerベースの手法で画像やテキストの特徴を抽出し テキストの内容を予測 (3, 15, 39, 23) text spotting (text detection + text recognition) の学習にも合成データで行われる (18, 7, 30)
3 Scene Text in 3D Virtual World 3.1 Overview 合成エンジン ・リアルな画像を生成 ・レンダリングと生成に約1秒しかかからない ・市販の3Dシーンモデルと互換性
パイプライン ・Vierfindモジュール (3.2):3Dシーンの周囲を探索しカメラの視点を生成 ・Environment Randomization (3.3):2次元シーン情報を元にテキスト領域を提案 ・Text Region Generation (3.4) ・Text Rendering (3.5)
3.2 Viewfinder 3Dシーンの空間全体からカメラの位置と回転の位置を推定 (合理的な3Dシーンを生成) ルールベースの手法で3次元ランダムウォークを設計
3.2.1 Physically-Constrained 3D Random Walk 3D Random Walkを用いてカメラの有効な位置を決定し,カメラの位置から視点の方向に光線を投射 → 多様なカメラ視点を生成
3.2.2 Auxiliary Camera Anchors
3.3 Environment Rnadomization 環境をランダム
3.4 Text Region Generation シーン情報を用いて近似的に適切なテキスト領域を探索 (6, 1, 50)
3.4.1 文字を配置する場所の探索 3.4.2 文字を3D空間に投影できるように回転,拡大 (ルールベース的)
3.5 Text Rendering
4 Experiments on Scene text detection 4.1 EAST (Ref 53)のモデルを使用 Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, ShuchangZhou, Weiran He, and Jiajun Liang. EAST: An efficient andaccurate scene text detector. InProc. CVPR, 2017 https://github.com/argman/EAST/
Scene text detectionのデータセットで検証
5 Experiments on Scene Text Recognition ASTERのモデルを採用 aoguang Shi, Mingkun Yang, XingGang Wang, PengyuanLyu, Xiang Bai, and Cong Yao. Aster: An attentional scenetext recognizer with flexible rectification.IEEE transactionson pattern analysis and machine intelligence, 31(11):855–868, 2018.
6 Future work ・提案エンジンのパラメータは人間が決めたものなので探索する必要がある ・そもそも画質的に読みにくいテキストは始めから外しておいた方が検出精度がよくなる可能性 ・多言語でのフォントの問題についての探索の可能性